import random
import os
import re
import requests
import asyncio
import aiohttp
import time
from lxml import etree
from Crypto.Cipher import AES
from Crypto.Util.Padding import pad,unpad url = "https://www.9tata.cc/play/17360-2-0.html"
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
"(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
"(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
"(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
"(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
"(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
"(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
"(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
"(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
"(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
"(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
headers ={
"User-Agent":random.choice(user_agent_list)
} async def get_m3u8_url():
async with aiohttp.ClientSession() as session:
async with session.get(url, headers=headers,ssl=False) as response:
text = await response.text()
html = etree.HTML(text) # 1. 获取页面html
video_name = html.xpath('//div[@class="page-header"]/h2/a[2]//text()')[0]
m3u8_1 = re.search('now="(.*?m3u8)";', text).group(1)
return m3u8_1, video_name # 2. 从网页源码(js)获取m3u8地址
async def get_m3u8_detail(m3u8_url):
async with aiohttp.ClientSession() as session:
async with session.get(m3u8_url, headers=headers,ssl=False) as response:
text = await response.text()
path = text.split('\n')[2]
# m3u8_2_path = os.path.join(os.path.dirname(m3u8_1), path)
m3u8_2_path = os.path.dirname(os.path.dirname(os.path.dirname(m3u8_url)))+path
return m3u8_2_path,os.path.dirname(path) async def get_key(m3u8_url):
"""获取Key"""
print(m3u8_url)
async with aiohttp.ClientSession() as session:
async with session.get(m3u8_url+"/key.key", headers=headers,ssl=False) as response:
text = await response.text()
with open("videos/key.key", "w") as f:
f.write(text)
return text # 4. 获取m3u8文件顺序
async def get_ts_list(m3u8_detail,path):
async with aiohttp.ClientSession() as session:
async with session.get(m3u8_detail, headers=headers,ssl=False) as response:
text = await response.text()
with open("videos/old_index.m3u8","w") as f:
text = text.replace(path+'/',os.path.abspath("videos")+'\\')
# text = text.replace("\\","\\\\")
f.write(text)
ts_list = re.findall(r"\\([A-Za-z0-9]*\.ts)",text)
print(ts_list)
base_path = os.path.dirname(m3u8_detail)
return ts_list, base_path async def download(base_path, ts, aes):
# 5. 下载ts文件
ts_path = base_path+'/'+ts
ts_name = os.path.basename(ts)
print(ts_path)
with open(f"videos/{ts_name}", "wb") as f:
async with aiohttp.ClientSession() as session:
async with session.get(ts_path, headers=headers,ssl=False) as response:
f.write(aes.decrypt(pad(await response.content.read(), AES.block_size)))
# f.write(aes.decrypt(await response.content.read()))
print(f"{ts_name}下载完成") def change_m3u8():
"""视频ts已经解密,不需要在解密 #EXT-X-KEY这行删除"""
with open("videos/old_index.m3u8",'r') as f:
lines = f.readlines()
with open("index.m3u8", 'w') as file:
for line in lines:
if "#EXT-X-KEY" not in line:
file.readline(line) def merge(video_name="flash"):
"""视频合并"""
os.chdir(os.path.join(os.path.dirname(os.path.abspath(__file__)),"videos"))
os.system(f"ffmpeg -allowed_extensions ALL -i index.m3u8 -c copy {video_name}.mp4") async def main():
m3u8_url, name = await get_m3u8_url()
m3u8_detail,path = await get_m3u8_detail(m3u8_url)
key = await get_key(os.path.dirname(m3u8_detail))
aes = AES.new(key.encode('utf-8'), AES.MODE_CBC,b"0000000000000000")
ts_list, base_path = await get_ts_list(m3u8_detail,path)
tasks = [asyncio.create_task(download(base_path,ts, aes)) for ts in ts_list]
await asyncio.wait(tasks)
change_m3u8()
merge(name) start = time.time()
asyncio.run(main())
print(f"耗时:{time.time()-start}")

爬取m3u8加密视频的更多相关文章

  1. 利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

    需求 想看下动漫<进击的巨人>,发现到处被和谐,找不到资源,但是在一个视频网站找到了在线播放,https://www.55cc.cc/dongman/17890/player-2-1.ht ...

  2. 爬虫之爬取B站视频及破解知乎登录方法(进阶)

    今日内容概要 爬虫思路之破解知乎登录 爬虫思路之破解红薯网小说 爬取b站视频 Xpath选择器 MongoDB数据库 爬取b站视频 """ 爬取大的视频网站资源的时候,一 ...

  3. 如何手动写一个Python脚本自动爬取Bilibili小视频

    如何手动写一个Python脚本自动爬取Bilibili小视频 国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...

  4. python爬虫:爬取慕课网视频

    前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...

  5. Python爬取B站视频信息

    该文内容已失效,现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息,由于B站的反爬封IP,以及网上的免费代理IP绝大部分失效,无法实现一个可靠的IP代理池,免费代理网站又是各种 ...

  6. Python爬虫实战:爬取腾讯视频的评论

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  7. python 爬取腾讯视频的全部评论

    一.网址分析 查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax ...

  8. Python爬取某短视频热点

    写在前面的一些话: 随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分.本文以一个简单的小例子,简述如何通过Pyhton依托Selenium来 ...

  9. Python 自动爬取B站视频

    文件名自定义(文件格式为.py),脚本内容: #!/usr/bin/env python #-*-coding:utf-8-*- import requests import random impor ...

  10. Python爬取抖音视频

    最近在研究Python爬虫,顺便爬了一下抖音上的视频,找到了哥们喜欢的小姐姐居多,咱们给他爬下来吧. 最终爬取结果 好了废话补多说了,上代码! #https://www.iesdouyin.com/a ...

随机推荐

  1. 数据库PolarDB开源之路该如何走?听听他们怎么说

    简介: 10月25日,由阿里云开发者社区.阿里云PolarDB开源社区.InfoQ联合举办的「开源人说」数据库PolarDB专场线下沙龙在杭州召开,5位阿里云数据库超级大咖.10位阿里云数据库开源生态 ...

  2. 【知识点】如何快速开发、部署 Serverless 应用?

    简介: 本文将详细介绍如何开发和部署 Serverless 应用,并通过阿里云函数计算控制台与开发者工具 Serverless Devs 进行应用的初始化.部署:最后分享应用的调试,通过科学发布.可观 ...

  3. 《领域驱动设计》:从领域视角深入仓储(Repository)的设计和实现

    简介: <领域驱动设计>中的Repository(下面将用仓储表示)层实际上是极具有挑战性的,对于它的理解,也十分重要.本文讲大部分内容都在众多前辈理论基础上,从一个崭新的领域视觉开始探索 ...

  4. dubbo-go v3 版本 go module 踩坑记

    简介: 该问题源于我们想对 dubbo-go 的 module path 做一次变更,使用 dubbo.apache.org/dubbo-go/v3 替换之前的 github.com/apache/d ...

  5. 阿里云消息队列 RocketMQ 5.0 全新升级:消息、事件、流融合处理平台

    ​简介: RocketMQ5.0 的发布标志着阿里云消息从消息领域正式迈向了"消息.事件.流"场景大融合的新局面.未来阿里云消息产品的演进也将继续围绕消息.事件.流核心场景而开展. ...

  6. [Trading] 关于短线交易 Day Trading 的知识

    短线交易员操纵市场,试图利用股票.期货和其他金融产品价值的短期波动. 以下是你需要知道的关于日交易的知识,包括免费的交易图表,交易策略,以及日交易软件和平台. https://www.thebalan ...

  7. python3解析FreeSWITCH会议室列表信息

    操作系统 :CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 Python版本:3.9.12 进行FreeSWITCH会议室相关功能开发过程中,会遇到需要解析会议室列表信息并进行 ...

  8. 简说Python之ipython的pdb调试

    目录 简说Python之ipython 1.安装ipython 2.ipython的使用 3.ipython的debug调试. 系统环境:Ubuntu 18.04.1 LTS Python使用的是虚拟 ...

  9. 关于ITIL的习惯性误解

    关于ITIL的习惯性误解 1. ITIL是标准?不是!ITIL本质是一套适合西方社会信息化阶段的 模板原版教材 最佳实践(Best Practice),不是标准. 大量的培训师和咨询顾问将其包装成&q ...

  10. Git reset 的hard、soft、mixed参数对比

    目录 分区概念 1. --soft参数 2. --mixed参数 3. --hard参数 分区概念 先要清楚在本地,git会分三个区:工作区.暂存区.本地库. 当使用去做版本移动的时候,那么在使用[- ...