python之爬虫（爬取.ts文件并将其合并为.MP4文件—

//20200115

最近在看“咱们裸熊——we bears”第一季和第三季都看完了，单单就第二季死活找不到，只有腾讯有资源，但是要vip……而且还是国语版……所以就瞄上了一个视频网站——可以在线观看（好的动漫喜欢收藏，就想着下载，第一季第三季都找到了资源，甚至第四季都有，就没有第二季……）

最近又正好在学python（为大数据打基础），就想着爬取视频，下面说说流程：

首先F12检查，先看看是否是直接嵌入链接（以防真的有笨笨的web主~），然后发现没有

然后就开始点开Networks检查抓包，发现有后缀为.m3u8的链接，就点开看了——有两层，第二层是一大堆格式化数据

然后再看剩下的包，都是.ts文件，再以.ts文件链接比对第二个m3u8包里的东西，发现正好对应，只是要拼接字符串获取真实链接，确认了思路之后就开始上手了（只是基础爬取，还未用到线程——其实用线程池技术可以更快，毕竟ts文件很多，也未用到代理，因为数据量还不算大，而且有手动限时）

理一下思路：

先从视频播放界面源码中获取每一集的链接，存在列表里备用（这个是显示的）---->然后获取每一个链接对应网址的源码——里边儿有一个ckplayer的div块，里边儿有第一层m3u8的链接 ----> 用beautifulSoup获取到这个链接（这个链接返回的是一个json，用json包转格式获取到第一层链接） -----> 访问这个链接获取到第二个m3u8链接（其中要拼接字符串）----->然后访问第二个链接获取到ts视频地址信息（也要拼接字符串——拼接完成后存储到列表中备用）----->使用文件输出流将ts文件下载并存在对应文件夹内

接下来就是等待了，等它下完，因为文件很细碎，所以耗时很久……可以考虑使用线程池改进（等我把大数据基础学完了再说，不急）

然后在每一个ts文件夹中用windows命令copy/b *.ts video.mp4将ts文件合并为mp4文件——可以嵌入到python代码中，不过我没有bat基础，就直接手动了，也不会太困难（大功告成！）

下面上源码：

source code：

#

import requests

import json

import time

from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36'}

location = 'https://www.****.cc'

mid = "/1000k/hls"

last = "/index.m3u8"

url_pool = ['/dianshiju/20740/player-1-1.html',

'/dianshiju/20740/player-1-2.html',

'/dianshiju/20740/player-1-3.html',

'/dianshiju/20740/player-1-4.html',

'/dianshiju/20740/player-1-5.html',

'/dianshiju/20740/player-1-6.html',

'/dianshiju/20740/player-1-7.html',

'/dianshiju/20740/player-1-8.html',

'/dianshiju/20740/player-1-9.html',

'/dianshiju/20740/player-1-10.html',

'/dianshiju/20740/player-1-11.html',

'/dianshiju/20740/player-1-12.html',

'/dianshiju/20740/player-1-13.html',

'/dianshiju/20740/player-1-14.html',

'/dianshiju/20740/player-1-15.html',

'/dianshiju/20740/player-1-16.html',

'/dianshiju/20740/player-1-17.html',

'/dianshiju/20740/player-1-18.html',

'/dianshiju/20740/player-1-19.html',

'/dianshiju/20740/player-1-20.html',

'/dianshiju/20740/player-1-21.html',

'/dianshiju/20740/player-1-22.html']

len1 = len(url_pool)

def get_json_url(soup):

    url = soup.find("div",id = "iFrame_play").script.get('src')

    return location + url 

def get_first_url(json_url):

    r2 = requests.get(json_url,headers = headers,timeout = 10).text

    dic = json.loads(r2[r2.find('{'):r2.find('}')+1])

    return dic['url']

def get_real_m3u8_url(url):

    index_of_last = url.rfind('/')

    the_forward = url[:index_of_last]

    return the_forward + mid

def get_the_ts_pack(url):

    r3 = requests.get(url,headers = headers,timeout = 10).text

    list_of_ts = r3.split('#')

    return list_of_ts

def get_each_ts_url(the_ts_pack,the_real_m38u_url):

    len2 = len(the_ts_pack)

    for i in range(0,len2):

        suffix = the_ts_pack[i].split('\n')[1]

        the_ts_pack[i] = the_real_m38u_url + "/" + suffix

    # return the_ts_pack

def mission(url,n,group):

    print('*****')

    response=requests.get(url,headers=headers,timeout = 10)

    print('-----')

    f=open("./"+str(group)+"/%03d.ts"%n,"wb")

    f.write(response.content)

    f.close()

    print("%03d.ts OK..."%n)

def download(the_ts_pack,group):

    len3 = len(the_ts_pack)

    count = 0

    i = -1

    while i != len3-1:

        try:

            i+=1

            mission(the_ts_pack[i],i,group)

        except (requests.exceptions.ConnectionError,requests.exceptions.ReadTimeout):

            count+=1

            print("第"+str(count)+"次等待")

            time.sleep(5)

            i-=1

        else:

            count=0

        time.sleep(0.5)

# for i in range(0,len1):

for i in range(12,22):

    completed_link = location + url_pool[i]

    r1 = requests.get(completed_link,headers=headers,timeout = 10)

    soup = BeautifulSoup(r1.text,"lxml")

    json_url = get_json_url(soup)

    time.sleep(0.1)

    the_first_mu38_url = get_first_url(json_url)

    time.sleep(0.1)

    the_real_m38u_url = get_real_m3u8_url(the_first_mu38_url)

    the_ts_pack = get_the_ts_pack(the_real_m38u_url + last)[5:-1]

    get_each_ts_url(the_ts_pack,the_real_m38u_url)

    print(the_ts_pack)

    download(the_ts_pack,i)

    print("第" + str(i) + "组ts视频已经下载完成")

    time.sleep(10)

    #

#

# list1 = str1.rfind('/')

# str2 = str1[:list1]

# print(str2)

# for i in range()

# for each in url_pool:

#     print(each)

#

# for n in range(1,167):

#     mission(link + str(8000+n)+".ts",n)

# dic = {'%3A':':','%2F':"/"}

# str1 = str1.replace('%3A',':')

# str1 = str1.replace('%2F','/')

# print(str1)

#

#

# r = requests.get(link,headers = headers,timeout = 10)

# text = r.text

# print(text)

#

注：因为视频有版权，网站地址就不放出来了，重要的是思路，每个网站都不一样，都要重新分析

侵删！

关于python异常机制：

1.try-except代码块，就是如果有异常就执行except里的代码，然后如果有循环就跳过这一次（显然不符合要求，因为要下齐资源，所以要用到2）

2.try-except-else代码块，如果有异常，就执行except内代码，如果没有，执行完try中代码后，继续执行else中代码

另：except后跟的异常，可以是一个也可以是多个（多个使用“（..，..，..）”这种格式，不知道啥异常可以直接用Exception）

因为代码执行过程中，服务器有的时候会返回不了信息，就要异常来处理，不然每次都手动怎么称得上自动化呢~

希望对大家有所帮助

以上

python之爬虫（爬取.ts文件并将其合并为.MP4文件——以及一些异常的注意事项）的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
如何用Python网络爬虫爬取网易云音乐歌曲
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两 ...

随机推荐

JS数组方法（ES5、ES6）
1. arr.push() 从后面添加元素,添加一个或多个,返回值为添加完后的数组长度 let arr = [1,2,3,4,5] console.log(arr.push(6,7)) // 7 3 ...
MySQL 的一条语句是怎么执行的
该文为< MySQL 实战 45 讲>的学习笔记,感谢查看,如有错误,欢迎指正一.MySQL 的基础架构以下就是 MySQL 的基础架构图. 在 Linux 中安装 MySQL 时,最 ...
hash类型的应用场景 —— Redis实战经验
hash类型是一个string类型的field和value的映射表,每个 hash 可以存储 232 - 1 键值对(40多亿),hash类型主要有以下应用场景. 1. 购物车以用户id为key,商 ...
使用ASP.NET Core 3.x 构建 RESTful API - 5.1 输入验证
说到验证,那就需要做三件事: 定义验证规则按验证规则进行检查报告验证的错误.在把错误报告给API消费者的时候,报告里并不包含到底是服务端还是API消费者引起的错误,这是状态码的工作.而通常响应的B ...
SPFA的优化一览
目录序内容嵬序 spfa,是一个早已没人用的算法,就像那些麻木的人, 可谁有知道,他何时槃涅一个已死的算法 ,重生内容关于\(NOI2018D1T1\)的惨案,为了以防spfa被卡. 关 ...
TTradmin v2.1 【2019年12月12日更新】简单好用的临时远程协助软件
TTradmin 是一款免端口映射可直接穿透任何内网,基于VNC核心的即时远程协助软件.在使用的时候只需要保证“协助端”和“被协助端”使用同一个验证码即可实现安全便捷的远程控制,不需要进入路由 ...
Net Core使用Lucene.Net和盘古分词器实现全文检索
Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, ...
Windows电脑常用快捷键
Windows 徽标键键盘快捷方式: Windows 徽标键打开或关闭“开始”屏幕 Windows 徽标键 + A 打开操作中心 Windows 徽标键 + B ...
Excel创建下拉列表限制数据有效性
方法选中目标区域,点击菜单栏[数据]-[数据验证]-验证条件选择[序列]-输入所需文本即可
Easyui-Treegrid使用注意事项-sunziren
版权声明:本文为sunziren原创文章,博客园首发,转载务必注明出处以及作者名称. 最近,工作中有一个网页需要用到前端框架easyui的treegrid组件,因此我对这个treegird研究了一段时 ...

python之爬虫（爬取.ts文件并将其合并为.MP4文件——以及一些异常的注意事项）

python之爬虫（爬取.ts文件并将其合并为.MP4文件——以及一些异常的注意事项）的更多相关文章

随机推荐

热门专题