单线程多任务协程vip电影爬取

——仅供学习使用勿作商用如有违规后果自负！！！

这几天一直在使用python爬取电影，主要目的也是为了巩固前段时间强化学习的网络爬虫，也算是一个不错的检验吧，面对众多的反爬机制，爬虫真的是一件不容易的事，但我们本着“没有爬不下来的东西，只有懒惰的程序员”的坊间箴言，在遵守有关法律法规的前提下，与反爬机制作斗争，也是一个提升自我的过程。下面言归正传，今天我们学习一下使用单线程多任务协程方式来爬取普通电影和vip电影

一、明确几个概念

关于网络抓包：
1. elements里面是当前所见的网页，网页变化elements里面的标签元素也会变化，它只是记录某一时刻的网页内容，可以将它视为“快照”。
2. 而network内则记录从你打开检查开始网页上出现的所有的包，既然是从你打开检查开始，因此会存在一些漏包，建议先清空network，然后重新刷新页面，就能捕捉到所有的包，就不会出现漏包。
各大优酷腾讯爱奇艺等主流互联网视频网站，为了反爬以及防止过度占用媒体资源，抓包中是不提供.mp4文件，一般都以.m3u8的格式呈现。
1. M3U8 是 Unicode 版本的 M3U，用 UTF-8 编码。"M3U" 和 "M3U8" 文件都是苹果公司使用的 HTTP Live Streaming（HLS）协议格式的基础，这种协议格式可以在 iPhone 和 Macbook 等设备播放。简而言之，HLS 是新一代流媒体传输协议，其基本实现原理为将一个大的媒体文件进行分片，将该分片文件资源路径记录于 m3u8 文件（即 playlist）内，其中附带一些额外描述（比如该资源的多带宽信息···）用于提供给客户端。客户端依据该 m3u8 文件即可获取对应的媒体资源，进行播放。链接：https://www.jianshu.com/p/e97f6555a070
2. 抓m3u8真的是件很不容易的事情，无论vip还是普通电影，都能搜索到.m3u8的数据（url），打开检查后，最好再刷新一下网页，因为很多都是打开网页m3u8就立马加载的，爬取电影分vip爬取和普通爬取进行讲解。

二、普通电影爬取

直接f12抓包，搜索.m3u,能找到m3u8的url

获得后下载m3u8，用python编写代码（代码与vip下载相同，不做重复说明）下载里面的.ts文件，合成.mp4，如果能够播放，但是时长显示错误的话，需要用ffmpeg转码。

ffmpeg -i out.ogv -vcodec h264 out.mp4

ffmpeg -i out.ogv -vcodec mpeg4 out.mp4

ffmpeg -i out.ogv -vcodec libxvid out.mp4

ffmpeg -i out.mp4 -vcodec wmv1 out.wmv

ffmpeg -i out.mp4 -vcodec wmv2 out.wmv

#-i 后面是输入文件名。-vcodec 后面是编码格式，h264 最佳，但 Windows 系统默认不安装。如果是要插入 ppt 的视频，选择 wmv1 或 wmv2 基本上万无一失。

附加选项：-r 指定帧率，-s 指定分辨率，-b 指定比特率；于此同时可以对声道进行转码，-acodec 指定音频编码，-ab 指定音频比特率，-ac 指定声道数，例如

三、VIP电影抓取

如果不是会员，vip电影直接在主流视频完整抓包是抓不到完整的m3u8的，所以我们用http://jx.618g.com/?url=视频地址，去解析。关于解析网站值得说明的是，如果把优酷上的某个电影网址输入，找到的不一定是你想要的，但一般不会错。比如找房祖名的某部电影，然后找到的竟然是该名的外国片。所以jx.618g.com是在全网找这部关键字的电影哦，所以并非如你所想。解析网站也不是把原网页的电影给解析出来，主流的视频vip电影哪有这么容易就解析出来。

下面我们开始爬取电影

用requests.get(url=url)获取m3u8文件，确实能获取到，但是有时那个.m3u8文件是不对的，因为真正的m3u8有时是动态加载的。所以要用抓包搜m3u8，然后真正的m3u8（几十K)。下载m3u8完毕后，合成电影有两种方式：

使用ffmpeg合成
```
ffmpeg -i "网址" -vcodec copy -acodec copy 电影.mp4
```
- 成功率不高，几千个ts文件，总有出错的，存在电影文件无法读取的隐患

使用python下载.ts文件并合成（推荐），请看源码讲解。

conf.py文件：配置文件

import re

#'''

# n_times用于在下载上千个ts文件时，对待个别未成功下载的文件需要再次运行main完成下载

# 每次运行一次main更改一次数字

#'''

n_times=1

#'''

# 永远不变

#'''

#undo_list为未下载成功后生成的未下载序号

undo_list='未下载'+str(n_times)+'.txt'

#new_m3u8_list为未下载成功后生成的待下载的.ts文件列表

new_m3u8_list='new_m3u8_list'+str(n_times)+'.txt'

#'''

# 每次下载一部电影都要更改

#'''

#m3u8原始路径

path_m3u8 = '新扎师妹.m3u8'

#下载地址的base目录

path_base='https://youku.cdn-tudou.com/20180611/6359_a2aef4b6/1000k/hls/'

#root为电影ts文件下载目录

root = r"D:\movie\vip8"

#对某部电影匹配正则运算，找到电影序号

ret = re.compile('de5a(.*?).ts')

create_m3u8_list.py：对m3u8源文件进行提取下载列表

from conf import path_m3u8

import os

def m3u8_table(path_m3u8):

    m3u8_list=path_m3u8+'.txt'

    with open(path_m3u8,mode='r',encoding='utf-8')as f:

        if not os.path.isfile(m3u8_list):

            for line in f:

                if '.ts' in line:

                        with open(m3u8_list, mode='a', encoding='utf-8')as f1:

                            f1.write(line)

        return m3u8_list

m3u8_list=m3u8_table(path_m3u8)

m3u8_main.py：运行的主文件

import requests

import aiohttp

import asyncio

import re

import os

import time

from time import sleep

from conf import *

from create_m3u8_list import m3u8_list#无论from还是直接import都会运行那个模块的

from functools import partial# partial(偏函数)可以把函数包装成另外一个函数

start=time.time()

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

num=0#计算到第几个文件

async def get_request(sem,url):

    global num

    async with sem:

        async with aiohttp.ClientSession() as s:

            async with await s.get(url,headers=headers) as response:

                rep = await response.read()#read()返回的是byte类型的数据

                num += 1

                print('------------{}'.format(num))

                return rep

tasks = []

#最大并发数

sem = asyncio.Semaphore(50)

# 向回调函数传递参数

def parse(line,task):

    try:

        res = ret.findall(line)

        ct = "%04d" % int(res[0])

        rep = task.result()

        abs_path = os.path.join(root, ct + '.ts')

        with open(abs_path, mode='wb')as f1:

            f1.write(rep)

    except Exception as e:

        with open(undo_list,mode='a',encoding='utf-8')as f2:

            f2.write(ct+'\n')

        print(e)

def run(path):

    with open(path,mode='r',encoding='utf-8')as f:

        for line in f:

            line=line.strip('\n')

            if 'http' not in line:

                line=path_base+line

            c = get_request(sem,line)

            task = asyncio.ensure_future(c)

            task.add_done_callback(partial(parse,line))

            #还是要用回调的，传参的回调，一边下一边就能保存，比后面同步的后续处理要好，因为不需要task都完毕了才保存。

            tasks.append(task)

    loop = asyncio.get_event_loop()

    loop.run_until_complete(asyncio.wait(tasks))

def main():

    run(exec_list)

    with open(undo_list, mode='r', encoding='utf-8') as f3, open(m3u8_list, mode='r', encoding='utf-8')as f4, open(new_m3u8_list, mode='a', encoding='utf-8') as f5:

        whole = f4.readlines()

        for line in f3:

            line = line.strip('\n')

            f5.write(whole[int(line)])

    print(time.time()-start)

if __name__ == '__main__':

# 第一遍执行文件exc_list选择m3u8_list，第二遍选择new_m3u8_list1,第三遍以此类推

    if n_times==1:

        exec_list=m3u8_list

    else:

        exec_list='new_m3u8_list'+str(n_times-1)+'.txt'

    main()

#后面不适用回调，为同步处理数据，感觉不好，一错俱错

# if __name__ == '__main__':

#     run(path)

#     for task in tasks:

#         try:

#      # 这个ct放try后面顺序就不会乱，否则，一旦有个不能下载，就一直保持连续，都不知道谁有问题不能下。

#             ct += 1

#             rep = task.result()

#             ct1 = "%04d" % int(ct)

#             abs_path = os.path.join(root,ct1+'.ts')

#             with open(abs_path, mode='wb')as f1:

#                 f1.write(rep)

#         except Exception:

#             print(task.cancel())

#             continue

#     print(time.time()-start)

m3u8_combine.py：合成ts文件为mp4格式

# 整合所有ts文件，保存为mp4格式

import os

import sys

import shutil

def tsToMp4():

    print("开始合并...")

    root = r"D:\Movie\vip7"

    outdir = r"D:\Movie\output"

    #很重要，一定要切换到目录下

    os.chdir(root)

    if not os.path.exists(outdir):

        os.mkdir(outdir)

    os.system("copy /b *.ts new.mp4")

    os.system("move new.mp4 {}".format(outdir))

    print("结束合并...")

tsToMp4()

如果存在普通电影爬取所说的能看而时长错误，可以使用ffmpeg转码

        强烈建议大家注册为会员观看vip电影，电影爬取仅为学习使用，不可作为商业用途，产生侵权等法律问题由当事人承担

                                       书写不易，请留有余香

单线程多任务协程vip电影爬取的更多相关文章

python 多协程异步IO爬取网页加速3倍。
from urllib import request import gevent,time from gevent import monkey#该模块让当前程序所有io操作单独标记,进行异步操作. m ...
猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库
还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 # coding: utf-8 # author: hmk impo ...
猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库
上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看 ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
python多任务——协程的使用
使用yield完成多任务 import time def test1(): while True: print("--1--") time.sleep(0.5) yield Non ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...
python的多线程、多进程、协程用代码详解
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
小爬爬4.协程基本用法&&多任务异步协程爬虫示例(大数据量)
1.测试学习 (2)单线程: from time import sleep import time def request(url): print('正在请求:',url) sleep() print ...
多任务3(协程)--yield完成多任务交替执行
协程是并发,单线程,一次执行一个来回切换代码: import time def task_1(): while True: print("-----1-----") time. ...

随机推荐

从VR泛滥到倒闭看热门投机的山寨创业心态
相对国外来说,国人的从众心理非常严重.无数的段子和"名人名言"都在反复向我们传递出一个信息:国人在做事的时候,总是随大流,趋向热点.而从行业角度来看,结果就会造成行业中良莠不齐.鱼 ...
一个很粗糙的XXXX
改dnsrecon的代码改来改去都获取不到想要的结果,也不知道是不是py中的正则和PHP的有神马不一样的地方,但是用RegexBuddy测的时候是正确的,想不通啊想不通.果断不改了,自己动手PHP ...
5.7之sql_model
问题发生背景今天在部署项目的时候发现,测试后台接口,直接报 500,仔细一看原来是操作数据库的时候报错了,在本地测试的时候是没遇到类似的问题,数据库的版本是一样的,后面查找资料,说是 MySQL 5 ...
php获取远程图片并把它保存到本地
/* *功能:php多种方式完美实现下载远程图片保存到本地 *参数:文件url,保存文件名称,使用的下载方式 *当保存文件名称为空时则使用远程文件原来的名称 */ function getImage( ...
iPhone6爆炸真是小概率事件吗？
前不久,央视新闻报道,根据上海市消费者权益保护委员会统计,2016年9月到11月,共接到8名消费者投诉,反映其苹果手机在正常使用或者正常充电的情况下突然爆炸.此外,苹果手机还被投诉存在自动关机等问题, ...
使用python抓取美团商家信息
抓取美团商家信息 import requests from bs4 import BeautifulSoup import json url = 'http://bj.meituan.com/' ur ...
flask 中文乱码
返回的json数据中包含中文,但前端显示乱码,添加了 app.config['JSON_AS_ASCII'] = False仍然没有解决, app.config['JSONIFY_MIMETYPE'] ...
LeetCode--链表2-双指针问题
LeetCode--链表2-双指针问题思考问题: 判断一个链表是否有环列举几种情况: graph LR A-->B B-->C C-->D D-->E E-->C g ...
C#可空类型知多少
在项目中我们经常会遇到可为空类型,那么到底什么是可为空类型呢?下面我们将从4个方面为大家剖析. 1.可空类型基础知识顾名思义,可空类型指的就是某个对象类型可以为空,同时也是System.Nullab ...
XXE学习(二)——DTD基础
一.DTD简介文档类型定义(DTD)可定义合法的XML文档构建模块.它使用一系列合法的元素来定义文档的结构. 有了DTD文档后,xml就需按照DTD中的规范来书写 DTD 可被成行地声明于 XML ...

单线程多任务协程vip电影爬取

单线程多任务协程vip电影爬取

一、明确几个概念

二、普通电影爬取

三、VIP电影抓取

单线程多任务协程vip电影爬取的更多相关文章

随机推荐

热门专题