【Python爬虫案例学习2】python多线程爬取youtube视频

转载：https://www.cnblogs.com/binglansky/p/8534544.html

开发环境：

python2.7 + win10

开始先说一下，访问youtube需要那啥的，请自行解决，最好是全局代理。

实现代码：

# -*-coding:utf-8-*-

# author : Corleone

from bs4 import BeautifulSoup

import lxml

import Queue

import requests

import re,os,sys,random

import threading

import logging

import json,hashlib,urllib

from requests.exceptions import ConnectTimeout,ConnectionError,ReadTimeout,SSLError,MissingSchema,ChunkedEncodingError

import random

'''

遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！

'''

reload(sys)

sys.setdefaultencoding('gbk')

# 日志模块

logger = logging.getLogger("AppName")

formatter = logging.Formatter('%(asctime)s %(levelname)-5s: %(message)s')

console_handler = logging.StreamHandler(sys.stdout)

console_handler.formatter = formatter

logger.addHandler(console_handler)

logger.setLevel(logging.INFO)

q = Queue.Queue()   # url队列

page_q = Queue.Queue()  # 页面

def downlaod(q,x,path):

    urlhash = "https://weibomiaopai.com/"

    try:

        html = requests.get(urlhash).text

    except SSLError:

        logger.info(u"网络不稳定 正在重试")

        html = requests.get(urlhash).text

    reg = re.compile(r'var hash="(.*?)"', re.S)

    result = reg.findall(html)

    hash_v = result[0]

    while True:

        data = q.get()

        url, name = data[0], data[1].strip().replace("|", "")

        file = os.path.join(path, '%s' + ".mp4") % name

        api = "https://steakovercooked.com/api/video/?cached&hash=" + hash_v + "&video=" + url

        api2 = "https://helloacm.com/api/video/?cached&hash=" + hash_v + "&video=" + url

        try:

            res = requests.get(api)

            result = json.loads(res.text)

        except (ValueError,SSLError):

            try:

                res = requests.get(api2)

                result = json.loads(res.text)

            except (ValueError,SSLError):

                q.task_done()

                return False

        vurl = result['url']

        logger.info(u"正在下载：%s" %name)

        try:

            r = requests.get(vurl)

        except SSLError:

            r = requests.get(vurl)

        except MissingSchema:

            q.task_done()

            continue

        try:

            with open(file,'wb') as f:

                f.write(r.content)

        except IOError:

            name = u'好开心么么哒 %s' % random.randint(1,9999)

            file = os.path.join(path, '%s' + ".mp4") % name

            with open(file,'wb') as f:

                f.write(r.content)

        logger.info(u"下载完成：%s" %name)

        q.task_done()

def get_page(keyword,page_q):

    while True:

        headers = {

            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'

        }

        page = page_q.get()

        url = "https://www.youtube.com/results?sp=EgIIAg%253D%253D&search_query=" + keyword + "&page=" + str(page)

        try:

            html = requests.get(url, headers=headers).text

        except (ConnectTimeout,ConnectionError):

            print u"不能访问youtube 检查是否已FQ"

            os._exit(0)

        reg = re.compile(r'"url":"/watch\?v=(.*?)","webPageType"', re.S)

        result = reg.findall(html)

        logger.info(u"第 %s 页" % page)

        for x in result:

            vurl = "https://www.youtube.com/watch?v=" + x

            try:

                res = requests.get(vurl).text

            except (ConnectionError,ChunkedEncodingError):

                logger.info(u"网络不稳定 正在重试")

                try:

                    res = requests.get(vurl).text

                except SSLError:

                    continue

            reg2 = re.compile(r"<title>(.*?)YouTube",re.S)

            name = reg2.findall(res)[0].replace("-","")

            if u'\u4e00' <= keyword <= u'\u9fff':

                q.put([vurl, name])

            else:

                # 调用金山词霸

                logger.info(u"正在翻译")

                url_js = "http://www.iciba.com/" + name

                html2 = requests.get(url_js).text

                soup = BeautifulSoup(html2, "lxml")

                try:

                    res2 = soup.select('.clearfix')[0].get_text()

                    title = res2.split("\n")[2]

                except IndexError:

                    title = u'好开心么么哒 %s' % random.randint(1, 9999)

                q.put([vurl, title])

        page_q.task_done()

def main():

    # 使用帮助

    keyword = raw_input(u"请输入关键字：").decode("gbk")

    threads = int(raw_input(u"请输入线程数量(建议1-10): "))

    # 判断目录

    path = 'D:\youtube\%s' % keyword

    if os.path.exists(path) == False:

        os.makedirs(path)

    # 解析网页

    logger.info(u"开始解析网页")

    for page in range(1,26):

        page_q.put(page)

    for y in range(threads):

        t = threading.Thread(target=get_page,args=(keyword,page_q))

        t.setDaemon(True)

        t.start()

    page_q.join()

    logger.info(u"共 %s 视频" % q.qsize())

    # 多线程下载

    logger.info(u"开始下载视频")

    for x in range(threads):

        t = threading.Thread(target=downlaod,args=(q,x,path))

        t.setDaemon(True)

        t.start()

    q.join()

    logger.info(u"全部视频下载完成！")

main()

【Python爬虫案例学习2】python多线程爬取youtube视频的更多相关文章

【Python爬虫案例学习】python爬取淘宝里的手机报价并以价格排序
第一步: 先分析这个url,"?"后面的都是它的关键字,requests中get函数的关键字的参数是params,post函数的关键字参数是data, 关键字用字典的形式传进去,这 ...
【Python爬虫案例学习】Python爬取淘宝店铺和评论
安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动sel ...
【Python爬虫案例学习】Python爬取天涯论坛评论
用到的包有requests - BeautSoup 我爬的是天涯论坛的财经论坛:'http://bbs.tianya.cn/list.jsp?item=develop' 它里面的其中的一个帖子的URL ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python3 多线程爬取梨视频
多线程爬取梨视频 from threading import Thread import requests import re # 访问链接 def access_page(url): respons ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
Python爬虫入门教程： 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...

随机推荐

(尚033)Vue_案例_slot(组件间的通信4:slot)
1.组件间的通信4:slot(slot:插槽,就是一个占位) slot用于标签反复使用很多次 1.1理解此方式用于父组件向子组件传递标签数据, 其他为数据通信外面组件向里面组件传递标签进去,直接拿 ...
信息学奥赛一本通提高篇序列第k个数及快速幂
我是传送门这个题首先是先判断是等差还是等比数列等差的话非常简单: 前后两个数是等差的,举个栗子: 3 6 9 12 这几个数,(我感觉 1 2 3 4并说明不了什么) 每次都加3嘛,很容易看出,第 ...
pwd函数实现
/* * 文件名:mypwd.c * 描述: 实现简单的pwd命令 */ #include<stdio.h> #include<stdlib.h> #include<di ...
MySQL数据库中文乱码问题
mysql> select * from books; +-----+---------------------------------+---------+-------------+---- ...
Fluent　Meshing生成interface
源视频链接: https://pan.baidu.com/s/1St4o-jB5KRfN5dLsvRe_vQ 提取码: 9rrr
jmeter(四十五)常用Beanshell脚本
整理了一批jmeter常用的beanshell脚本供大家参考! 时间戳 import java.text.SimpleDateFormat; import java.util.Calendar; im ...
nestjs pm2 启动静态文件404报错
不要直接使用pm2 start 可执行文件,静态文件会显示404. 使用如下方式:
pm2使用 node 进程管理
1.问题使用阿里云服务器时遇到一个问题,就是只能开一个命令窗口,加入运行node服务,只能起一个服务,不能启多个服务.pm2可以解决这个问题. 2.pm2简介官网:https://pm2.keym ...
php curl 转为 x-www-form-urlencoded 方式
curl_setopt($curl, CURLOPT_HTTPHEADER, array('Content-Type: application/x-www-form-urlencoded')); fr ...
关于RSA汇总
写在前面安全测试需要, 后台数据需要签名, 前台验签, 于是有了这篇hao123. 正文 jsrsasign https://github.com/kjur/jsrsasign jsrsasign使 ...

【Python爬虫案例学习2】python多线程爬取youtube视频

【Python爬虫案例学习2】python多线程爬取youtube视频的更多相关文章

随机推荐

热门专题