用python实现多线程爬取影视网站全部视频方法【笔记】

我拿这个站点作为案例：https://91mjw.com/ 其他站点方法都是差不多的。

第一步：获得整站所有的视频连接

html = requests.get("https://91mjw.com",headers=gHeads).text

xmlcontent = etree.HTML(html)

UrlList = xmlcontent.xpath("//div[@class='m-movies clearfix']/article/a/@href")

NameList = xmlcontent.xpath("//div[@class='m-movies clearfix']/article/h2/a/text()")

第二步：是进入选择的电影的页面去获得视频的链接

UrlList = xmlContent.xpath("//div[@id='video_list_li']/a/@href")

第三步构造下载视频用到的参数

第四步下载视频保存到本地

直接上实现代码
使用的多线程加信号量实现默认开启5条线程开始操作每条线程去下载一套视频是一套一套一套
也可以自己去修改同时开启几条线程
实现代码

#!/usr/bin/env python

# -*- coding: utf-8 -*-

 

import re

import requests

from threading import *

from bs4 import BeautifulSoup

from lxml import etree

from contextlib import closing

 

nMaxThread = 5

connectlock = BoundedSemaphore(nMaxThread)

gHeads = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

 

class MovieThread(Thread):

    def __init__(self,url,movieName):

        Thread.__init__(self)

        self.url = url

        self.movieName = movieName

 

    def run(self):

        try:

            urlList = self.GetMovieUrl(self.url)

            for i in range(len(urlList)):

                type,vkey = self.GetVkeyParam(self.url,urlList[i])

                if type != None and vkey !=None:

                    payload,DownloadUrl = self.GetOtherParam(self.url,urlList[i],type,vkey)

                    if DownloadUrl :

                        videoUrl = self.GetDownloadUrl(payload,DownloadUrl)

                        if videoUrl :

                            self.DownloadVideo(videoUrl,self.movieName,i+1)

        finally:

            connectlock.release()

 

    def GetMovieUrl(self,url):

        heads = {

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",

            "Host":"91mjw.com",

            "Referer":"https://91mjw.com/"

        }

        html = requests.get(url,headers=heads).text

        xmlContent = etree.HTML(html)

        UrlList = xmlContent.xpath("//div[@id='video_list_li']/a/@href")

        if  len(UrlList) > 0:

            return UrlList

        else:

            return None

 

    def GetVkeyParam(self,firstUrl,secUrl):

        heads = {

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",

            "Host": "91mjw.com",

            "Referer": firstUrl

        }

        try :

            html = requests.get(firstUrl+secUrl,headers=heads).text

            bs = BeautifulSoup(html,"html.parser")

            content = bs.find("body").find("script")

            reContent = re.findall('"(.*?)"',content.text)

            return reContent[0],reContent[1]

        except:

            return None,None

 

    def GetOtherParam(self,firstUrl,SecUrl,type,vKey):

        url = "https://api.1suplayer.me/player/?userID=&type=%s&vkey=%s"%(type,vKey)

        heads = {

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",

            "Host": "api.1suplayer.me",

            "Referer": firstUrl+SecUrl

        }

        try:

            html = requests.get(url,headers=heads).text

            bs = BeautifulSoup(html,"html.parser")

            content = bs.find("body").find("script").text

            recontent = re.findall(" = '(.+?)'",content)

            payload = {

                    "type":recontent[3],

                    "vkey":recontent[4],

                    "ckey":recontent[2],

                    "userID":"",

                    "userIP":recontent[0],

                    "refres":1,

                    "my_url":recontent[1]

                }

            return payload,url

        except:

            return None,None

 

    def GetDownloadUrl(self,payload,refereUrl):

        heads = {

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",

            "Host": "api.1suplayer.me",

            "Referer": refereUrl,

            "Origin": "https://api.1suplayer.me",

            "X-Requested-With": "XMLHttpRequest"

        }

        while True:

            retData = requests.post("https://api.1suplayer.me/player/api.php",data=payload,headers=heads).json()

            if  retData["code"] == 200:

                return retData["url"]

            elif retData["code"] == 404:

                payload["refres"] += 1;

                continue

            else:

                return None

 

    def DownloadVideo(self,url,videoName,videoNum):

        CurrentSize = 0

        heads = {

            "chrome-proxy":"frfr",

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",

            "Host":"sh-yun-ftn.weiyun.com",

            "Range":"bytes=0-"

        }

        with closing(requests.get(url,headers=heads)) as response:

            retSize = int(response.headers['Content-Length'])

            chunkSize = 10240

            if response.status_code == 206:

                print '[File Size]: %0.2f MB\n' % (retSize/1024/1024)

                with open("./video/%s/%02d.mp4"%(videoName,videoNum),"wb") as f:

                    for data in response.iter_content(chunk_size=chunkSize):

                        f.write(data)

                        CurrentSize += len(data)

                        f.flush()

                        print '[Progress]: %0.2f%%' % float(CurrentSize*100/retSize) + '\r'

 

def main():

    html = requests.get("https://91mjw.com",headers=gHeads).text

    xmlcontent = etree.HTML(html)

    UrlList = xmlcontent.xpath("//div[@class='m-movies clearfix']/article/a/@href")

    NameList = xmlcontent.xpath("//div[@class='m-movies clearfix']/article/h2/a/text()")

    for i in range(len(UrlList)):

        connectlock.acquire()

        url = UrlList[i]

        name = NameList[i].encode("utf-8")

        t = MovieThread(url,name)

        t.start()

 

if __name__ == '__main__':

    main()

用python实现多线程爬取影视网站全部视频方法【笔记】的更多相关文章

from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
用Python爬取影视网站，直接解析播放地址。
记录时刻! 写这个爬虫主要是想让自己的爬虫实用,把脚本放到了服务器,成为可随时调用的接口. 思路算是没思路吧!把影视名带上去请求影视网站,然后解析出我们需要的播放地址. 我也把自己的接口分享出来.接口 ...
Python多线程爬取某网站表情包
# 爬取网络图片import requestsfrom lxml import etreefrom urllib import requestfrom queue import Queue # 导入队 ...
python协程爬取某网站的老赖数据
import re import json import aiohttp import asyncio import time import pymysql from asyncio.locks im ...
使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
Python爬虫一爬取B站小视频源码
如果要爬取多页的话在最下方循环中填写好循环的次数就可以了项目源码 from fake_useragent import UserAgent import requests import time ...
Python多进程方式抓取基金网站内容的方法分析
因为进程也不是越多越好,我们计划分3个进程执行.意思就是 :把总共要抓取的28页分成三部分. 怎么分呢? # 初始range r = range(1,29) # 步长 step = 10 myList ...

随机推荐

SpringMVC中静态资源的处理
web项目中web.xml配置在一个使用springmvc的web项目中,必然在web.xml中要配置前端控制器DispatcherServlet <servlet> <servl ...
安装donkeyid
cd /usr/local/php/include/php/ext sudo git clone https://github.com/osgochina/donkeyid.git cd /usr/l ...
Javascript获取JSON对象长度
laravel中一些非常常用的php artisan命令
php artisan 命令在开发laravel项目中非常常用,下面是一些总结 composer config -g repo.packagist composer https://mirrors.a ...
27 多线程（一）——创建进程的三种方法、线程锁（同步synchornized与lock）
线程的流程线程的创建有三种方法,重点掌握前两种: 继承Thread类实现Runnable接口(推荐使用:避免单继承的局限性) 实现Callable接口根据java的思想,要少用继承,多用实现. ...
基于 Docker 和 GitLab 的前端自动化部署实践笔记
基于 Docker 和 GitLab 的前端自动化部署实践笔记随着接触的项目越来越多,在部署测试流程上重复耗时工作也越来越多,所以对前端工作的CI/CD实现愈发迫在眉睫. 前端开发由于三大框架的崛 ...
Android--Bitmap处理、圆角、圆形
/** * 转换图片成圆形 * * @param bitmap * 传入Bitmap对象 * @return */ public static Bitmap toRoundBitmap(Bitmap ...
TweenMax参数用法中文介绍
TweenMax 建立在 TweenLite 和 TweenFilterLite 基础之上,因此,又揉合了这二者的功能,使得功能更加的齐备,但是如果说易用性,觉得还是 TweenLite 来得方便一些 ...
Nginx惊群问题
Nginx惊群问题 "惊群"概念所谓惊群,可以用一个简单的比喻来说明: 一群等待食物的鸽子,当饲养员扔下一粒谷物时,所有鸽子都会去争抢,但只有少数的鸽子能够抢到食物, 大部分鸽子 ...
backpropagation algorithm
搞卷积神经网络的时候突然发现自己不清楚神经网络怎么训练了,满脸黑线,借此机会复习一下把. 首先放一位知乎大佬的解释.https://www.zhihu.com/question/27239198?rf ...

用python实现多线程爬取影视网站全部视频方法【笔记】

用python实现多线程爬取影视网站全部视频方法【笔记】的更多相关文章

随机推荐

热门专题