【新手必学】Python爬虫之多线程实战

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：清风化煞_

正文

新手注意：如果你学习遇到问题找不到人解答，可以点我进裙，里面大佬解决问题及Python教.程下载和一群上进的人一起交流！

1.先附上没有用多线程的包图网爬虫的代码

import requests

from lxml import etree

import os

import time

start_time = time.time()#记录开始时间

for i in range(1,7):

    #1.请求包图网拿到整体数据

    response = requests.get("https://ibaotu.com/shipin/7-0-0-0-0-%s.html" %str(i))

    #2.抽取 视频标题、视频链接

    html = etree.HTML(response.text)

    tit_list = html.xpath('//span[@class="video-title"]/text()')#获取视频标题

    src_list = html.xpath('//div[@class="video-play"]/video/@src')#获取视频链接

    for tit,src in zip(tit_list,src_list):

        #3.下载视频

        response = requests.get("http:" + src)

        #给视频链接头加上http头,http快但是不一定安全,https安全但是慢

        #4.保存视频

        if os.path.exists("video1") == False:#判断是否有video这个文件夹

            os.mkdir("video1")#没有的话创建video文件夹

        fileName = "video1\\" + tit + ".mp4"#保存在video文件夹下，用自己的标题命名，文件格式是mp4

                                            #有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\

        print("正在保存视频文件: " +fileName)#打印出来正在保存哪个文件

        with open (fileName,"wb") as f:#将视频写入fileName命名的文件中

           f.write(response.content)

end_time = time.time()#记录结束时间

print("耗时%d秒"%(end_time-start_time))#输出用了多少时间

2.将上述代码套用多线程，先创建多线程

data_list = []#设置一个全局变量的列表

# 创建多线程

class MyThread(threading.Thread):

    def __init__(self, q):

        threading.Thread.__init__(self)

        self.q = q

    #调用get_index()

    def run(self) -> None:

        self.get_index()

    #拿到网址后获取所需要的数据并存入全局变量data_list中

    def get_index(self):

        url = self.q.get()

        try:

            resp = requests.get(url)# 访问网址

            # 将返回的数据转成lxml格式，之后使用xpath进行抓取

            html = etree.HTML(resp.content)

            tit_list = html.xpath('//span[@class="video-title"]/text()')  # 获取视频标题

            src_list = html.xpath('//div[@class="video-play"]/video/@src')  # 获取视频链接

            for tit, src in zip(tit_list, src_list):

                data_dict = {}#设置一个存放数据的字典

                data_dict['title'] = tit#往字典里添加视频标题

                data_dict['src'] = src#往字典里添加视频链接

                # print(data_dict)

                data_list.append(data_dict)#将这个字典添加到全局变量的列表中

        except Exception as e:

            # 如果访问超时就打印错误信息，并将该条url放入队列，防止出错的url没有爬取

            self.q.put(url)

            print(e)

3.用队列queue,queue模块主要是多线程，保证线程安全使用的

def main():

    # 创建队列存储url

    q = queue.Queue()

    for i in range(1,6):

        # 将url的参数进行编码后拼接到url

        url = 'https://ibaotu.com/shipin/7-0-0-0-0-%s.html'%str(i)

        # 将拼接好的url放入队列中

        q.put(url)

    # 如果队列不为空，就继续爬

    while not q.empty():

        # 创建3个线程

        ts = []

        for count in range(1,4):

            t = MyThread(q)

            ts.append(t)

        for t in ts:

            t.start()

        for t in ts:

            t.join()

4.创建存储方法，如果你学习遇到问题找不到人解答，可以点我进裙，里面大佬解决问题及Python教.程下载和一群上进的人一起交流！

#提取data_list的数据并保存

def save_index(data_list):

    if data_list:

        for i in data_list:

            # 下载视频

            response = requests.get("http:" + i['src'])

            # 给视频链接头加上http头，http快但是不安全,https安全但是慢

            # 保存视频

            if os.path.exists("video") == False:  # 判断是否有video这个文件夹

                os.mkdir("video")  # 没有的话创建video文件夹

            fileName = "video\\" + i['title'] + ".mp4"  # 保存在video文件夹下，用自己的标题命名，文件格式是mp4

            # 有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\

            print("正在保存视频文件: " + fileName)  # 打印出来正在保存哪个文件

            with open(fileName, "wb") as f:  # 将视频写入fileName命名的文件中

                f.write(response.content)

5.最后就是调用函数了

if __name__ == '__main__':

    start_time = time.time()

    # 启动爬虫

    main()

    save_index(data_list)

    end_time = time.time()

    print("耗时%d"%(end_time-start_time))

6.附上完整的多线程代码

import requests

from lxml import etree

import os

import queue

import threading

import time

data_list = []#设置一个全局变量的列表

# 创建多线程

class MyThread(threading.Thread):

    def __init__(self, q):

        threading.Thread.__init__(self)

        self.q = q

    #调用get_index()

    def run(self) -> None:

        self.get_index()

    #拿到网址后获取所需要的数据并存入全局变量data_list中

    def get_index(self):

        url = self.q.get()

        try:

            resp = requests.get(url)# 访问网址

            # 将返回的数据转成lxml格式，之后使用xpath进行抓取

            html = etree.HTML(resp.content)

            tit_list = html.xpath('//span[@class="video-title"]/text()')  # 获取视频标题

            src_list = html.xpath('//div[@class="video-play"]/video/@src')  # 获取视频链接

            for tit, src in zip(tit_list, src_list):

                data_dict = {}#设置一个存放数据的字典

                data_dict['title'] = tit#往字典里添加视频标题

                data_dict['src'] = src#往字典里添加视频链接

                # print(data_dict)

                data_list.append(data_dict)#将这个字典添加到全局变量的列表中

        except Exception as e:

            # 如果访问超时就打印错误信息，并将该条url放入队列，防止出错的url没有爬取

            self.q.put(url)

            print(e)

def main():

    # 创建队列存储url

    q = queue.Queue()

    for i in range(1,7):

        # 将url的参数进行编码后拼接到url

        url = 'https://ibaotu.com/shipin/7-0-0-0-0-%s.html'%str(i)

        # 将拼接好的url放入队列中

        q.put(url)

    # 如果队列不为空，就继续爬

    while not q.empty():

        # 创建3个线程

        ts = []

        for count in range(1,4):

            t = MyThread(q)

            ts.append(t)

        for t in ts:

            t.start()

        for t in ts:

            t.join()

#提取data_list的数据并保存

def save_index(data_list):

    if data_list:

        for i in data_list:

            # 下载视频

            response = requests.get("http:" + i['src'])

            # 给视频链接头加上http头，http快但是不安全,https安全但是慢

            # 保存视频

            if os.path.exists("video") == False:  # 判断是否有video这个文件夹

                os.mkdir("video")  # 没有的话创建video文件夹

            fileName = "video\\" + i['title'] + ".mp4"  # 保存在video文件夹下，用自己的标题命名，文件格式是mp4

            # 有特殊字符的话需要用\来注释它，\是特殊字符所以这里要用2个\\

            print("正在保存视频文件: " + fileName)  # 打印出来正在保存哪个文件

            with open(fileName, "wb") as f:  # 将视频写入fileName命名的文件中

                f.write(response.content)

if __name__ == '__main__':

    start_time = time.time()

    # 启动爬虫

    main()

    save_index(data_list)

    end_time = time.time()

    print("耗时%d"%(end_time-start_time))

7.这2个爬虫我都设置了开始时间和结束时间，可以用(结束时间-开始时间)来计算比较两者的效率。

【新手必学】Python爬虫之多线程实战的更多相关文章

Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
Python爬虫工程师必学——App数据抓取实战
Python爬虫工程师必学 App数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（23）：解析库 pyquery 入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（4）：前置准备（三）Docker基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（11）：urllib 基础使用（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

给大家整理了几个开源免费的 Spring Boot + Vue 学习资料
最近抽空在整理前面的文章案例啥的,顺便把手上的几个 Spring Boot + Vue 的学习资料推荐给各位小伙伴.这些案例有知识点的讲解,也有项目实战,正在做这一块的小伙伴们可以收藏下. 案例学习 ...
VMware安装Ubuntu 16.04.4 LTS
1.下载Ubuntu镜像 https://www.ubuntu.com/download/desktop 2.创建新的虚拟机 3. 4.这里默认即可,可以不选 5. 6. 7.这里位置可以随时改 8. ...
06_K-近邻算法
k-近邻算法算法介绍定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一类别,则该样本也属于这个类别. 计算距离公式:欧式距离 (两点之间距离) 需要做标准化 ...
opencv 3 core组件进阶(1 访问图像中的像素）
访问图像像素的三类方法 ·方法一指针访问:C操作符[ ]; ·方法二迭代器iterator; ·方法三动态地址计算. #include <opencv2/core/core.hpp> ...
ACL2019: 《GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction》源码解析
论文地址:<GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction> G ...
记一次Pod中java进程内存“异常”消耗
背景环境:openshift3.11 开发反映部署在容器中的java应用内存持续增长,只升不降,具体为: java应用部署在容器中,配置的jvm参数为-Xms1024m -Xmx1024m,容器me ...
VueRouter爬坑第二篇-动态路由
VueRouter系列的文章示例编写时,项目是使用vue-cli脚手架搭建. 项目搭建的步骤和项目目录专门写了一篇文章:点击这里进行传送后续VueRouter系列的文章的示例编写均基于该项目环境. ...
mysql--时区问题（时间差8个小时？修改Mysql 时区）
发现评论时间比本地时间晚8小时,原因:mysql默认时区选择了CST 解决办法: Ubuntu系统环境下: 1.检查mysql系统时区进入mysql:mysql -u root -p mysql&g ...
【转】Pandas常见用法总结
关键缩写和包导入在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 s:任意的Pandas Series对象 raw:行标签 col:列标签引入响应模块: im ...
Rust 入门 (四)
所有权是 rust 语言独有的特性,它保证了在没有垃圾回收机制下的内存安全,所以理解 rust 的所有权是很有必要的.接下来,我们来讨论所有权和它的几个特性:借用.切片和内存结构. 什么是所有权 Ru ...

【新手必学】Python爬虫之多线程实战

【新手必学】Python爬虫之多线程实战的更多相关文章

随机推荐

热门专题