Python爬虫实战案例：爬取爱奇艺VIP视频

一、实战背景

爱奇艺的VIP视频只有会员能看，普通用户只能看前6分钟。比如加勒比海盗5的URL：http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1

我们怎么免费看VIP视频呢？一个简单的方法，就是通过旋风视频VIP解析网站。URL：http://api.xfsub.com/

这个网站为我们提供了免费的视频解析，它的通用解析方式是：

 http://api.xfsub.com/index.php?url=[播放地址或视频id]

比如，对于绣春刀这个电影，我们只需要在浏览器地址栏输入：

 http://api.xfsub.com/index.php?url=http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1

这样，我们就可以在线观看这些VIP视频了：

但是这个网站只提供了在线解析视频的功能，没有提供下载接口，如果想把视频下载下来，我们就可以利用网络爬虫进行抓包，将视频下载下来。

二、实战升级

分析方法相同，我们使用Fiddler进行抓包：

我们可以看到，有用的请求并不多，我们逐条分析。我们先看第一个请求返回的信息。

可以看到第一个请求是GET请求，没有什么有用的信息，继续看下一条。

我们看到，第二条GET请求地址变了，并且在返回的信息中，我们看到，这个网页执行了一个POST请求。POST请求是啥呢？它跟GET请求正好相反，GET是从服务器获得数据，而POST请求是向服务器发送数据，服务器再根据POST请求的参数，返回相应的内容。这个POST请求有四个参数，分别为time、key、url、type。记住这个有用的信息，我们在抓包结果中，找一下这个请求，看看这个POST请求做了什么。

很显然，这个就是我们要找的POST请求，我们可以看到POST请求的参数以及返回的json格式的数据。其中url存放的参数如下：

    xfsub_api\/url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http%3A%2F%2Fwww.iqiyi.com%2Fv_19rr7qhfg0.html&type=&xml=1

这个信息有转义了，但是没有关系，我们手动提取一下，变成如下形式：

    xfsub_api/url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1

我们已经知道了这个解析视频的服务器的域名，再把域名加上：

    http://api.xfsub.com/xfsub_api\url.php?key=02896e4af69fb18f70129b6046d7c718&time=1505724557&url=http://www.iqiyi.com/v_19rr7qhfg0.html&type=&xml=1

这里面存放的是什么东西？不会视频解析后的地址吧？我们有浏览器打开这个地址看一下：

果然，我们可以看到视频地址近在眼前啊，URL如下：

    http://disp.titan.mgtv.com/vod.do?fmt=4&pno=1121&fid=1FEA2622E0BD9A1CA625FBE9B5A238A6&file=/c1/2017/09/06_0/1FEA2622E0BD9A1CA625FBE9B5A238A6_20170906_1_1_705.mp4

我们再打开这个视频地址：

瞧，我们就这样得到了这个视频在服务器上的缓存地址。根据这个地址，我们就可以轻松下载视频了。

PS：需要注意一点，这些URL地址，都是有一定时效性的，很快就会失效，因为里面包含时间信息。所以，各位在分析的时候，要根据自己的URL结果打开网站才能看到视频。

接下来，我们的任务就是编程实现我们所分析的步骤，根据不同的视频播放地址获得视频存放的地址。

现在梳理一下编程思路：

用正则表达式匹配到key、time、url等信息。
根据匹配的到信息发POST请求，获得一个存放视频信息的url。
根据这个url获得视频存放的地址。
根据最终的视频地址，下载视频。

三、编写代码

编写代码的时候注意一个问题，就是我们需要使用requests.session()保持我们的会话请求。简单理解就是，在初次访问服务器的时候，服务器会给你分配一个身份证明。我们需要拿着这个身份证去继续访问，如果没有这个身份证明，服务器就不会再让你访问。这也就是这个服务器的反爬虫手段，会验证用户的身份。

Python爬虫实战案例：爬取爱奇艺VIP视频的更多相关文章

如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
Python 爬虫实例（5）—— 爬取爱奇艺视频电视剧的链接（2017-06-30 10:37）
1. 我们找到爱奇艺电视剧的链接地址 http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html 我们点击翻页发现爱奇艺的链接是这样的 ...
芝麻HTTP：Python爬虫实战之抓取爱问知识人问题并保存至数据库
本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表达式的简 ...
Python爬取爱奇艺资源
像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端.那么如何不用下载客户端,直接下载非vip视频? 选择你想要爬取的内容该安装的程序以及运行环境都配置好下面这段代码就是我在爱奇艺里搜素“ ...
爱奇艺vip视频免费看
代码: <html> <meta charset="utf-8" /> <head> <script> var num = 0; v ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
python 爬虫入门案例----爬取某站上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSou ...

随机推荐

svm算法介绍
在一个理想的分类当中,我们想要用一个超平面来将正类样本和负类样本划分开来.这个超平面的方程为 $\mathbf{w}^T\mathbf{x}+b=0$ 我们希望这个超平面能够使得划分更加的鲁棒,在图形 ...
NSArray与NSMutableArray 数组与可变数组的创建和遍历复习
1.NSArray 是一个父类,NSMUtableArray是其子类,他们构成了OC的数组. 2.NSArray的创建 NSArray * array = [[NSArray alloc]initWi ...
Nagios 监控mysqlserver具体实现过程
,之后在页面就能够看到监控效果了參考文章:http://os.51cto.com/art/201409/452605.htm
Delphi插件创建、调试与使用应用程序扩展
Delphi插件创建.调试与使用应用程序扩展翻译 : MiracleZ 有没有使用过Adobe Photoshop?如果用过,你就会对插件的概念比较熟悉.对外行人来说,插件仅仅是从外部提供给应用程 ...
关于JAVA_HOME, CLASSPATH和PATH的设置
http://bbs.csdn.net/topics/120079565 1.PATH,这个是给WINDOWS操作系统用的,告诉命令行里,执行的命令行工具在那里,比如java,javac这都是命令行工 ...
虚拟机网络配置详解(NAT、桥接、Hostonly) z
http://www.cnblogs.com/beginmind/p/6379881.html VirtualBox中有四种网络连接方式: NAT Bridged Adapter Internal H ...
Android Binder总结
1. MediapplayerService 的启动,怎样在ServiceManager注冊的,不解说详细的细节 ServiceManager 是整个系统的Service总管,其余的系统服务都是通过d ...
Windows上的git配置
Git下载: 网站:https://code.google.com/p/msysgit/ 文件:https://msysgit.googlecode.com/files/Git-1.8.4-previ ...
ArcGIS For Android ExportTileCache应用
说明:从ArcGIS For Android10.2.4 ,開始支持下载在线地图服务切片缓存到移动设备本地.以便离线时进行地图浏览.本文章摘要介绍,使用自己公布的服务时,须要注意的内容. 一.首先公布 ...
thinkphp输出表格
//这是打印5列n行的表格,所以mod="5" value="4" <tr> <volist name="data" id ...

Python爬虫实战案例：爬取爱奇艺VIP视频

Python爬虫实战案例：爬取爱奇艺VIP视频的更多相关文章

随机推荐

热门专题