Python爬取视频指南

摘自：https://www.jianshu.com/p/9ca86becd86d

前言

前两天尔羽说让我爬一下菜鸟窝的教程视频，这次就跟大家来说说Python爬取视频的经验

正文

https://www.cniao5.com/

菜鸟窝上有很多教程视频，但是这些视频好像没有直接的下载地址，而且有些教程视频还是有期限的，那么问题就产生了
我看的速度比较慢而且视频又很多，没等我看完视频就到期了怎么办？这时候写一个爬虫将这些教程视频下载下来就很好地解决了这个问题

当然，对于某些视频网站的VIP电影、视频之类的，一般情况下是无法在没有开通VIP的情况下用爬虫下载的，因为涉及到利益问题，同时数据传输也是加密的；想要看的话还是得开通会员再进行爬取

回到这次的目标上来，我们要爬取的是

https://www.cniao5.com/course/lessons/10153

上面的24章，共计202个教程视频

一

二

接下来我们来看看我们应该如何获取这些视频
首先我们看一下这个界面的源代码中没有关于课程视频的信息，那么我们点进去一个视频看看

三

通过开发者工具我们可以看到左侧都是这次加载视频是动态加载的信息，我们一个个来看
首先是url，我们可以看到这个链接是 Post 方式请求的（然鹅实际上再通过postman测试可以知道，并不用带上什么参数请求，吓唬人呢...）

四

五

这就是url返回的数据，其中 hd 、shd 代表高清、超清的视频类型，而当你访问这个链接后会自动下载一个 m3u8 文件，这介绍一下

m3u8 文件是指UTF-8编码格式的M3U文件。M3U文件是记录了一个索引纯文本文件，打开它时播放软件并不是播放它，而是根据它的索引找到对应的音视频文件的网络地址进行在线播放

六

七

而我们下载视频的方式就是通过向m3u8文件中的这些 .ts 的链接发送请求而下载一个个 ts视频流（暂时这么称呼）

下一个就是 chapters ，这里呢则是包含了所有24章视频的一些基本信息

八

九

注意这里的 vid 参数，之后我们会用到

十

这个就是网页上加载的m3u8 文件

十一

这看似乱码的ts文件下载下来后就是一个几秒钟的视频了

十二

而我们最后要做的就是将这些 ts 文件合成为一个 mp4 文件

十三

十四

那么如何来操作呢？

思路

通过请求 chapters 的链接获取每一个章节中每一个lesson的播放 url 地址（就是返回中带有 hd 、shd的），取出并请求 hd 的链接，下载m3u8文件，匹配m3u8文件中的每一个 ts ，请求 ts 文件对应的链接并下载到本地，最后合成为一个mp4视频

来跟着代码看一下
首先小编是在本地先用代码创建好最终合成视频的存放的空文件夹以便访问

十五

十六

def mkd():

    for i in range(1, 25):

        finalpath = 'D:\\Python\\PycharmProject\\FinalCniao5\\{}'.format(i)

        # 判断路径文件是否存在，不存在则创建

        f = os.path.exists(finalpath)

        if not f:

            os.makedirs(finalpath)

            print('make file success...')

        else:

            print('file already exists...')

接着创建对应章节的文件夹

# 防止 requests 开得太多

s = requests.session()

r_chapters = s.get('https://www.cniao5.com/api/v1/course/10153/chapters')

json_chapters = r_chapters.json()

# print(json_chapters)

for chapter in json_chapters:

    # 每一个章节

    chapter_name = chapter['bsort']

    print(chapter_name)

    # 根据课程数创建对应的课程文件夹

    path1 = self.file_path1.format(chapter_name)

    f = os.path.exists(path1)

    if not f:

        os.makedirs(path1)

        print('make file success...')

    else:

        print('file already exists...')

对章节中的每一个课程，获取其 id、key、file_id 创建对应的课程文件夹（用来保存ts文件）

for lessons in chapter['lessons']:

    # 章节下的每一个课程

    lessons_name = 'lessons' + str(lessons['bsort'])

    # 获取其id

    video_id = lessons['video_info']['vid']

    # 获取 key

    key = lessons['key']

    # 后面用到

    file_id = lessons['video_info']['file_id']

    print(lessons_name, video_id)

    # 每个视频创建一个视频id的文件夹

    path = 'D:\\Python\\PycharmProject\\Cniao5\\{}\\{}'.format(chapter_name, lessons_name)

    f = os.path.exists(path)

    # 基于中断后，创建文件时判断，若存在该文件夹则跳过对该视频的下载，若不存在则继续

对于之后则需要分为两种情况，我不知道菜鸟窝是怎么想的，你可以看到对于有的视频 vid 有具体的数值，有的则是 0

2019-01-02_225429.png

2019-01-02_225453.png

2019-01-02_225509.png

也就是说对于 vid 有值的我们可以很容易构造 url 链接从而获取 m3u8 文件进而下载 ts 视频；但是对于没有的来说就麻烦了，我们不能直接构造这个 url 链接
而对于这一类视频则是这样的

2019-01-02_225808.png

2019-01-02_225827.png

2019-01-02_225904.png

这类视频不是通过 m3u8 来处理视频的而是直接给了一个 mp4 的地址，那么也就是说对于 vid 为0的视频我们需要访问

https://playvideo.qcloud.com/getplayinfo/v2/1255567694/5285890782726972640

才可以拿到这个视频，那么这个 url 中后面的两个参数是什么呢
这个 5285890782726972640 我们在上图中可以发现就是之前提到的 file_id 这也是我们为什么要获取的原因；而前面的1255567694你多看几个就知道这个是不变的

而当你去访问这个 MP4 的链接时菜鸟窝会告诉你，你没有权限请求这个链接，what？
而这时候你要知道所谓爬虫就是模拟人对浏览器进行的操作而获取一定的结果，那么我们可以带上请求头来试试，小编是在用 fiddler 抓包后肯定了这一点，最后测试发现只要带上 header 中的 referer 就可以访问

2019-01-02_230702.png

2019-01-02_231030.png

而这个 referer 也是有讲究的，这个后面跟的奇怪的参数正是上述中你们都快忘了的 key ，这个是每个 lesson 中都有的

所以对于这种情况，之后只要把请求 MP4 链接后的内容以二进制方式保存就行

此外还要注意对于 ts 文件，在请求时的前缀是
https://vodi97egsxf.vod.126.net/vodi97egsxf/

2019-01-02_231639.png

而在合并 ts 文件时，我用的是通过Python调用 windows 自带的合成的命令来合成，但是需要注意合成时候的文件名一定按 001，002，...，010，...，099，100...如此排列；而如果按 1，2，3，...，10，11，...，99，100 则合并不会成功

所以在保存时就应该注意指定文件的名称即可

好了看到这里相信你应该有了一个基本的认识了，需要完整源码的也可以联系小编

Python爬取视频指南的更多相关文章

以“有匪”为实战案例，用python爬取视频弹幕
最近腾讯独播热剧"有匪"特别火,我也一直在追剧,每次看剧的时候都是把弹幕开启的,这样子看剧才有灵魂呀.借助手中的技术,想爬取弹幕分析下这部电视剧的具体情况和网友们的评论!对于弹幕的 ...
Python爬取视频(其实是一篇福利)
窗外下着小雨,作为单身程序员的我逛着逛着发现一篇好东西,来自知乎你都用 Python 来做什么?的第一个高亮答案. 到上面去看了看,地址都是明文的,得,赶紧开始吧. 下载流式文件,requests库 ...
python爬取视频网站m3u8视频，下载.ts后缀文件，合并成整视频
最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是影视大全 ,然后选择上映不久的电影 “一出好戏” . 分析页面我用的是c ...
python爬取快手视频多线程下载
就是为了兴趣才搞的这个,ok 废话不多说直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器首先,打开fiddler,fiddler作为htt ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
教你用python爬取抖音app视频
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例. 编程工具:pycharm app抓包工具:mitmproxy app自动化工具:appium 运行环境:windows10 思 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
Python爬取某短视频热点
写在前面的一些话: 随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分.本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来 ...

随机推荐

Oracle rman备份还原
备份脚本: oracle备份fullbak.sh 脚本 . /u01/prod/db/12.1.0/PROD_erpdbp.env LOGDATE="`date '+%Y%m%d'`&quo ...
Statefulset：部署有状态的多副本应用
10.1.什么是Statefulset StatefulSet是Kubernetes提供的管理有状态应用的负载管理控制器API. 特点: 1.具有固定的网络标记(主机名) 2.具有持久化 ...
201671010417 金振兴实验十四团队项目评审&课程学习总结
项目内容软件工程 https://www.cnblogs.com/nwnu-daizh/ 作业要求 https://www.cnblogs.com/sunmiaokun/p/11095027.ht ...
20180429模拟赛T1——添边问题
[问题描述] 没有环的有向图称为有向无环图,这是一个多么美好的结构吖. 如果有一张有 N 个点的有向图,我们可能需要删掉一些边使它变成一张有向无环图.假设初始时我们只有 N 个互不相连的点,当然它也是 ...
Opencv 初探常用API
一.介绍 OpenCV是计算机视觉领域应用最广泛的开源工具包,基于C/C++,支持Linux/Windows/MacOS/Android/iOS,并提供了Python,Matlab和Java等语言的接 ...
Excel——读取——导出目录
/** * 导出Excel文件到具体的目录 * <一句话功能简述> * <功能详细描述> * @param fileName 导出的文件名 * @param sheetName ...
利用restassured实现http/https接口请求
话不多说,直接上代码: package com.nuanshui.frms.test.utils.http; import io.restassured.response.Response; impo ...
jasypt-spring-boot
运行运行时配置解密秘钥-Djasypt.encryptor.password=在idea中运行命令行启动和docker中运行参见https://www.cnblogs.com/zz0412/p/j ...
(4)给树莓派安装中文输入法Fcitx及Google拼音输入法
sudo apt-get install fcitx fcitx-googlepinyin fcitx-module-cloudpinyin fcitx-sunpinyin 安装完毕,重启即可.
Numpy | 07 从数值范围创建数组
numpy.arange ***** 使用numpy 包中的 arange 函数,创建数值范围并返回 ndarray 对象,函数格式如下: numpy.arange(start, stop, step ...

Python爬取视频指南

前言

正文

思路

Python爬取视频指南的更多相关文章

随机推荐

热门专题