Python爬虫|爬取喜马拉雅音频

"GOOD

Python爬虫|爬取喜马拉雅音频

喜马拉雅是知名的专业的音频分享平台，用户规模突破4.8亿，汇集了有声小说，有声读物，儿童睡前故事，相声小品等数亿条音频，成为国内发展最快、规模最大的在线移动音频分享平台。今晚分享突破障碍，探秘喜马拉雅的天籁之音，实现实时抓取，并保存到本地！

知识点：

开发环境：windows pycharm requests json

网络反爬技术
文件的操作
网络请求
数据的转换
数据类型的使用

1. 首先导入requests库

import requests

6. 将上面获得的json数据转换成字典格式（需要导入json模块）

import json

4. header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}

这是应对反爬虫机制，伪装成合法浏览器而添加，本来复制过来的是User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36因python不识别User-Agent，所以将User-Agent用引号引起来，同时将冒号后面的内容也用引号引起来即可，这样就有了合法信息；该信息的位置：按F12->Network->headers->RequestHeaders->User-Agent: Mozilla/5.0...详见下图

2. 设置url,链接的获取方式：

打开喜马拉雅官网->点击“轻音乐”->点击“夜色钢琴曲”->选择一首歌后会出现播放按钮(先不要点此按钮)->按F12->点击Network->点击播放按钮->此时调试窗口会弹出播放请求->点击name下的第一栏album?....->点击右边栏Headers->展开General->复制Request URL下的网址https://www.ximalaya.com/revision/play/album?albumId...即可

url = "https://www.ximalaya.com/revision/play/album?albumId=291718&pageNum=1&sort=1&pageSize=30"

3 将获取的数据赋值给response,打印response

response = requests.get(url).text

print(response)

结果未获取到数据，因为网站做了反爬虫机制，所以要在上面添加header伪装成合法身份

5. 因为上面添加了header变量,所以应该把第3步替换为：

response = requests.get(url,headers = header).text

print(response)

添加header后，重新运行获得了数据（JSON格式）；复制下面的获取的数据，打开网址http://www.bejson.com/，在输入框中粘贴刚才的数据，点击“格式化校验”即可辨别是什么格式的文件；JSON类型为str,字典的类型为dict;它们的区别：d ={'name':'zs','gender':'man'} ===>是字典类型；而 s ='{'name':'zs','gender':'man'}' ===>是字符串类型，是JSON格式的字符串

7. 转换后赋值给audio_data(可在刚才判断类型的工具中查看一层一层的关系)

audio_data = json.loads(response)['data']['tracksAudioPlay']

8. 循环遍历链接及文件名

for audio_info in audio_data:

music_url = audio_info['src']

music_name = music_url.split('/')[-1]

9. 将获得的数据保存在硬盘music中

鼠标左键点击左边栏的music文件夹，将其打开，右键随便一首歌曲，点击“show in explorer”即可打开音频文件。

注意事项

代码操作的顺序是1-9，完整顺序是1，6，4，2，3，5，7，8，9；

这是因为代码存在BUG 的时候要不断的添加删除项

学的到东西的事情是锻炼，学不到的是磨练，所以我一直走在练的路上。

共享新方式
长按识别二维码，关注我们

Python爬虫|爬取喜马拉雅音频的更多相关文章

Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

mybatis入门（八）
mybatis入门---更新和删除  <delete id="deleteUser" parameterType="java. ...
mongodb学习之：条件操作符
在前面的章节中我们已经有用到了条件操作符,这里我们再重点介绍下.MongoDB中条件操作符有: (>) 大于 - $gt (<) 小于 - $lt (>=) 大于等于 - $gte ...
myeclipse10集成Tomcat6时出现错误
myeclipse配置Tomcat时出现错误:如图 tomcat6目录:如图在搜集各种资料后,最终得出结论: 在Tomcat目录中新建temp文件夹,问题解决. 亲测好使.
7-12 畅通工程之最低成本建设问题（30 point(s)）【PRIME】
7-12 畅通工程之最低成本建设问题(30 point(s)) 某地区经过对城镇交通状况的调查,得到现有城镇间快速道路的统计数据,并提出"畅通工程"的目标:使整个地区任何两个城镇间 ...
1022. Fib数列
https://acm.sjtu.edu.cn/OnlineJudge/problem/1022 Description 定义Fib数列:1,1,2,3,5,8,13,…1,1,2,3,5,8,13, ...
Intellij IDEA 修改代码后自动编译更新
Intellij IDEA 一些不为人知的技巧问题描述: Intellij IDEA 调试修改时,改动页面和 java 文件后,无法立刻看到变化,需要手动重启服务. 问题原因: 在 IDEA tom ...
[haoi2011]a
一次考试共有n个人参加,第i个人说:“有ai个人分数比我高,bi个人分数比我低.”问最少有几个人没有说真话(可能有相同的分数) 题解:首先,由每个人说的话的内容,我们可以理解为他处在ai+1,n-bi ...
IC卡、ID卡、M1卡、射频卡的区别是什么
IC卡.ID卡.M1卡.射频卡都是我们常见的一种智能卡,但是很多的顾客还是不清楚IC卡.ID卡.M1卡.射频卡的区别是什么,下面我们一起来看看吧. 所谓的IC卡就是集成电路卡,是继磁卡之后出现的又一种 ...
Java线程面试题 Top 50（转载）
原文链接:http://www.importnew.com/12773.html 本文由 ImportNew - 李广翻译自 javarevisited 不管你是新程序员还是老手,你一定在面试中遇 ...
CISCO-更新路由器IOS
1,查看flash,复制IOS文件名,再上传IOS 2,传送完毕查看下flash Router# show flash: 查看flash中的信息 Directory of flash: 1 -rw- ...

Python爬虫|爬取喜马拉雅音频

Python爬虫|爬取喜马拉雅音频的更多相关文章

随机推荐

热门专题