场景

喜马拉雅电台：

https://www.ximalaya.com/

找到一步小说音频，这里以下面为例

https://www.ximalaya.com/youshengshu/16411402/

博客：
https://blog.csdn.net/badao_liumang_qizhi
关注公众号
霸道的程序猿
获取编程相关电子书、教程推送与免费下载。

实现

找到下载地址

使用谷歌浏览器打开上面网址，按F12打开调试，点击播放按钮后，然后找到Network下的Media下的Headers下的RequestURL,然后选中在新窗口中打开

打开之后就可以点击三个点出来之后的下载按钮，便可以下载

使用代码下载

打开PyCharm，新建一个Python项目

导入requests库，然后为了防止其反扒机制，找到浏览器上Headers下的Requests
Headers下的User-Agent,复制出来。

#能发送http请求的库

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36' 
} 
media_url = 'http://audio.cos.xmcdn.com/group47/M0A/34/EA/wKgKm1tHj6GwgeWBAFehkfjyvKI181.m4a' response = requests.get(media_url,headers = headers); with open('badao.mp4',mode='wb') as f: f.write(response.content)

下载成功之后

下载地址获取

上面只是获取一个音频的下载地址，怎样获取每一集的下载地址

还是刚才的调试页面，我们点击放大镜样的搜索按钮，出来搜索框之后，输入刚才下载地址的文件名

点击第一个返回json数据的接口url,找到其Headers下的RequestURL。

然后在新窗口打开

可以看到是通过这个API返回的Json数据中的下载地址。

那么这个API需要传递什么参数。通过其Headers底部的请求参数可以看到需要一个id参数和pytype参数。

通过对比每一集的接口的请求参数得知，pytype是固定的，id是每一集对应的链接中的id相对应的。

所以要是循环下载多集的话，需要在目录页面获取超链接的href属性中对应的id。

这里我们定义一个请求下载地址json数据的方法

defmedia_api(track_id):
    api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1';

    response = requests.get(api_url,headers = headers)

    print(response.json())

media_api()

运行下打印json数据

提取下载地址

那么就需要根据传递的id参数通过这个接口返回json数据，并从json数据中提取src对应的url数据

def media_api(track_id):   
    api_url=f'https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1';

    response = requests.get(api_url,headers = headers)

    #print(response.json())

    #json返回字典类型  提取使用[]

    data_json = response.json()

    src = data_json['data']['src']

    return src

media_api()

这样就能根据id获取每一集的下载地址，然后再将下载地址传递给上面第一步下载的方法中进行下载即可。

接下来就是怎样获取每一集的id。

parsel解析网页获取id

首先需要导入parsel模块

import parsel

如果没有安装则需要安装

pip install parsel

我们来到其目录页

在Elemnts下可以看到每一集是一个a标签，我们获取a标签的href属性中的最后面的id。

我们再定义一个方法，此方法能根据页面的url获取当前页的所有集的id。

def get_total_page(page_url):

    #请求页面

    response = requests.get(page_url,headers = headers)

    print(response.text)

    #获取页面html的内容

    sel = parsel.Selector(response.text)

    print(sel)

    #通过css选择器找到a标签   .sound-list代表 class属性为sound-list 然后下面的ul 下的li 下的a

    sound_list = sel.css('.sound-list ul li a')

    print(sound_list)

    #只有前30个是页面链接 截取前30个

    for sound in sound_list[:]:

        #extract_first()将对象中的文字提取出来

        #获取a标签的href属性的内容

        media_url = sound.css('a::attr(href)').extract_first()

        #/youshengshu// --只去最后面的id

        media_url = media_url.split('/')[-]

        # 获取a标签的title属性的内容

        media_name = sound.css('a::attr(title)').extract_first()

        #用yield将整个循环的内容返回

        yield media_url,media_name

下载一页的音频

我们在main方法中调用获取当前页所有的集的id和名字，然后循环将拿到的id去请求api获取下载的地址，然后将下载地址传递给下载的方法去下载

if __name__ == '__main__':

    meidas = get_total_page('https://www.ximalaya.com/youshengshu/16411402/')

    for media_id,media_name in meidas:

        #print(media_url, media_name)

        media_url = media_api(media_id)

        download_meida(media_url, media_name)

运行程序将一页下载完

下载所有页

我们点击第二页看到url中追加了一个p2，依次类推，p+相应的页数。

这样就可以将页面url改造成传参的

if __name__ == '__main__':

    #循环页数下载 range代表下载的页数范围

    for page in range(,):

        meidas = get_total_page(f'https://www.ximalaya.com/youshengshu/16411402/p{page}')

        for media_id,media_name in meidas:

            #print(media_url, media_name)

            media_url = media_api(media_id)

            download_meida(media_url, media_name)

那么在range中就可以输入要下载的页数的范围。

如果输入(1,31)就是下载所有的30页，这里只下载第二页，所以range是(2,3)

代码下载

关注公众号：

霸道的程序猿

回复：

爬取喜马拉雅

Python中使用requests和parsel爬取喜马拉雅电台音频的更多相关文章

在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...

随机推荐

C#发送邮件（内容中有图片）
用微软的System.Net.Mail发送邮件,有些时候发邮件需要邮件内容中添加图片. 对象解释 SmtpClient类:允许应用程序使用简单邮件传输协议 (SMTP) 发送电子邮件.MailAddr ...
为Bootstrap Modal（模态框）全局添加拖拽操作
在js中绑定方法 $(document).on("show.bs.modal", ".modal", function(){ $(this).draggable ...
IDEA激活码
MNQ043JMTU-eyJsaWNlbnNlSWQiOiJNTlEwNDNKTVRVIiwibGljZW5zZWVOYW1lIjoiR1VPIEJJTiIsImFzc2lnbmVlTmFtZSI6I ...
Spring Boot 2 + Redis例子
Redis是一个key-value数据库,支持存储的value类型包括string(字符串).list(链表).set(集合).zset(sorted set --有序集合)和hash(哈希类型).在 ...
Ubantu 安装SSH
1.检查是否安装SSH dpkg --get-selections | grep ssh 一般情况下Ubantu 默认集成 openssh-client,但要用sftp的话还需要安装openssh-s ...
Data Management Technology(5) -- Recovery
Recovery Types of Failures Wrong data entry Prevent by having constraints in the database Fix with d ...
执行 Run manage.py Task 报 AttributeError: 'Command' object has no attribute 'usage'?
这个问题,是python与Pycharm不兼容导致,解决办法将Pycharm升级最新版本
Django-xadmin后台配置富文本编辑器（方法一）
1.https://github.com/twz915/DjangoUeditor3下载包,进入包文件夹,找到DjangoUeditor包拷贝到项目下,和xadmin同级目录 2.找到项目的setti ...
Linux—软连接与硬连接
软链接的创建,删除,修改创建软链接:ln -s[目标文件或目录][软链接地址] 解释:软链接地址相当于快捷方式,目标文件或目录才是真正的内容.[软链接地址]指“快捷键”文件名称,该文件是被指令创建的 ...
FreeRTOS临界保护
下面的是个人笔记,所有的话都适用于我本人理解,可能存在不对的地方. 进入临界保护(支持嵌套):taskENTER_CRITICAL(); 退出临界保护(支持嵌套):taskEXIT_CRITICAL( ...

Python中使用requests和parsel爬取喜马拉雅电台音频

场景

实现