生产者消费者模式

认识生产者和消费者模式

生产者和消费者是异步爬虫中很常见的一个问题。产生数据的模块，我们称之为生产者，而处理数据的模块，就称为消费者。

例如：

图片数据爬取中，解析出图片链接的操作就是在生产数据

对图片链接发起请求下载图片的操作就是在消费数据

为什么要使用生产者和消费者模式

在异步世界里，生产者就是生产数据的线程，消费者就是消费数据的线程。在多线程开发当中，如果生产者处理速度很快，而消费者处理速度很慢，那么生产者就必须等待消费者处理完，才能继续生产数据。同样的道理，如果消费者的处理能力大于生产者，那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

import requests

import threading

from lxml import etree

from queue import Queue

from urllib.request import urlretrieve

import os

# filename = 'imgs'

# if not os.path.exists(filename):

#     os.mkdir(filename)

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',

}

# https://pic.netbian.com/4kmeinv/

# 1.创建两个数据模型类

# 1.1生产数据：解析提取图片地址

class Producer(threading.Thread):  # 生产者线程

    # 6.构造生产者模型生产方法

    def __init__(self, page_queue, img_queue):

        # 7.调用父类的构造方法继承

        super().__init__()

        self.page_queue = page_queue

        self.img_queue = img_queue

    # 7.给生产者模型赋予任务:不断的生产数据

    def run(self):

        # print('正在执行Producer')

        while True:

            # 8.判断生产者队列是否为空

            if self.page_queue.empty():  # 如果判断为空，则表示所有连接已经请求完成，结束请求

                # print('结束执行Producer')

                break

            # 9.从page_queue中取出一个页码链接

            url = self.page_queue.get()

            # print(url)

            # 从当前的页码对应的页面中解析出更多的图片地址

            self.parse_detail(url)

    # 10.定义一个解析数据方法

    def parse_detail(self, url):

        response = requests.get(url=url, headers=headers)

        response.encoding = 'gbk'

        page_text = response.text

        tree = etree.HTML(page_text)

        li_list = tree.xpath('//*[@id="main"]/div[3]/ul/li')

        for li in li_list:

            img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

            img_title = li.xpath('./a/b/text()')[0] + '.jpg'

            # 11.将src和title封装成字典

            dic = {

                'src': img_src,

                'title': img_title

            }

            # print(dic)

            # 12.将字典传递到消费者队列

            self.img_queue.put(dic)

# 1.2消费数据：对图片地址进行数据请求

class Consumer(threading.Thread):  # 消费者线程

    # 13.消费者将每一个图片数据做请求并解析存储

    # 构建类方法（构造方法固定）

    def __init__(self, page_queue, img_queue):

        super().__init__()

        self.page_queue = page_queue

        self.img_queue = img_queue

    # 14.给消费者模型赋予任务:不断的消费数据

    def run(self):

        # print('正在执行Consumer')

        # 15.判断消费者队列和生产者队列是否为空

        while True:

            # 16.若二者都为空，则表示生产者队列和生产者队列均无数据可做请求解析

            if self.img_queue.empty() and self.page_queue.empty():

                # print('结束执行Consumer')

                break

                # 17.如不为空，则表示还有待处理的数据，则取出继续处理

                # img_queue:队列中传送过来的数据为字典,从字典中取出数据

            dic = self.img_queue.get()

            title = dic['title']

            src = dic['src']

            # 18.urlretrieve可以直接对图片地址发请求并做持久化存储

            urlretrieve(src, 'imgs/' + title)

            print(title, '下载完成！')

def main():

    # 2.创建队列

    # 2.1该队列中存储将要爬取的页面页码链接

    page_queue = Queue(30)  # 队列当中最多能存10个链接元素

    # 2.2该队列存储生产者生产出来的图片地址

    img_queue = Queue(80)  # 队列中最多能存储50个链接元素

    # 3.循环获取页面页码链接

    # 该循环可以将2,3，4这三个页码链接放入page_queue

    for x in range(2, 15):

        url = 'https://pic.netbian.com/4kmeinv/index_%d.html' % x

        # 将每一个页面页码链接添加到队列中

        page_queue.put(url)

        # print(url)

    # print(page_queue)

    # 4.生产者生产线程

    # 创建三个生产者线程并启动

    for x in range(3):

        t = Producer(page_queue, img_queue)

        t.start()

    # 5.消费者消费线程

    # 创建三个消费者线程并启动

    for x in range(3):

        t = Consumer(page_queue, img_queue)

        t.start()

main()

Day 22 22.3：生产者和消费者模式的更多相关文章

java进阶(40)--wait与notify（生产者与消费者模式）
文档目录: 一.概念二.wait的作用三.notify的作用四.生产者消费者模式五.举例 ---------------------------------------分割线:正文------ ...
使用libuv实现生产者和消费者模式
生产者和消费者模式(Consumer + Producer model) 用于把耗时操作(生产线程),分配给一个或者多个额外线程执行(消费线程),从而提高生产线程的响应速度(并发能力) 定义 type ...
java生产者与消费者模式
前言: 生产者和消费者模式是我们在学习多线程中很经典的一个模式,它主要分为生产者和消费者,分别是两个线程, 目录一:生产者和消费者模式简介二:生产者和消费者模式的实现声明:本例来源于java经典 ...
condition版生产者与消费者模式
1.简介在爬虫中,生产者与消费者模式是经常用到的.我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型.如果直接起线程进行构造生产者消费者模型,线程容易假死,也难以构造 ...
Java并发编程(4)--生产者与消费者模式介绍
一.前言这种模式在生活是最常见的,那么它的场景是什么样的呢? 下面是我假象的,假设有一个仓库,仓库有一个生产者和一个消费者,消费者过来消费的时候会检测仓库中是否有库存,如果没有了则等待生产,如果有就 ...
Java多线程设计模式(2)生产者与消费者模式
1 Producer-Consumer Pattern Producer-Consumer Pattern主要就是在生产者与消费者之间建立一个“桥梁参与者”,用来解决生产者线程与消费者线程之间速度的不 ...
【爬虫】Condition版的生产者和消费者模式
Condition版的生产者和消费者模式 threading.Condition 在没有数据的时候处于阻塞状态,有数据可以使用notify的函数通知等等待状态的线程运作 threading.Condi ...
【爬虫】Load版的生产者和消费者模式
''' Lock版的生产者和消费者模式 ''' import threading import random import time gMoney = 1000 # 原始金额 gLoad = thre ...
java 线程并发（生产者、消费者模式）
线程并发协作(生产者/消费者模式) 多线程环境下,我们经常需要多个线程的并发和协作.这个时候,就需要了解一个重要的多线程并发协作模型“生产者/消费者模式”. Ø 什么是生产者? 生产者指的是负责生产数 ...
Java中生产者与消费者模式
生产者消费者模式首先来了解什么是生产者消费者模式.该模式也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例.该问题描述了两个共享固定大小缓冲区的线 ...

随机推荐

【Java技术专题】「原理专题」深入分析Java中finalize方法的作用和底层原理
finalize方法是什么 finalize方法是Object的protected方法,Object的子类们可以覆盖该方法以实现资源清理工作,GC在首次回收对象之前调用该方法. finalize方法与 ...
内网渗透-at&schtasks&impacket的使用
内网机器结构机器账号密码如下: 2008 r2 webserver 域内 web 服务器本地管理员账号密码 : .\administraotr:admin!@#45 当前机器域用户密码 : god ...
【Python】pip的镜像安装异常解决方案
在安装pip的出现异常提示: ERROR: Could not find a version that satisfies the requirement pillow (from versions: ...
Spring MVC复习 —— 搭建Spring MVC项目
Spring MVC复习 -- 搭建Spring MVC项目摘要:这篇笔记是关于Spring MVC的复习,内容是如何搭建Spring MVC项目. 让我们快速的搭建一个Spring MVC ...
Spring Boot通过Actuator显示git和build的信息
1 简介为了更好的版本控制和问题定位,我们需要知道正在运行的应用是什么版本,什么时候打包的,Git的相关信息等.通过/actuator/info可以帮助我们获取这些信息. 2 配置首先要有actu ...
01-逻辑仿真工具VCS使用
1 逻辑仿真工具VCS的使用在书写完成RTL代码之后,确保自己书写的代码和自己想要的逻辑是一致的. VCS是synopsys公司下的的仿真工具. 1 VCS仿真过程编译-->仿真--> ...
JS基础简介
JS基础简介一.JS简介 JavaScript(简称'js')是一种具有函数优先的轻量级.解释型或及时编译型的编程语言.虽然它是作为开发web页面的脚本语言而出名,但是它也被用到了很多的非浏览器环境 ...
【学习笔记】开源库之 - sigslot (在解决浅拷贝问题的基础上增加信号拦截功能)
前言说明在文中<[学习笔记]开源库之 - sigslot (提供该库存在对象拷贝崩溃问题的解决方案)>已经介绍过 sigslot ,此文主要应用在实际的工作项目中时,发现会有拦截信号的需 ...
如何用Python实现http客户端和服务器
功能:客户端可以向服务器发送get,post等请求,而服务器端可以接收这些请求,并返回给客户端消息. 客户端: #coding=utf-8import http.clientfrom urllib i ...
C#网络爬虫开发
1前言爬虫一般都是用Python来写,生态丰富,动态语言开发速度快,调试也很方便但是我要说但是,动态语言也有其局限性,笔者作为老爬虫带师,几乎各种语言都搞过,现在这个任务并不复杂,用我最喜欢的C ...

Day 22 22.3：生产者和消费者模式

生产者消费者模式

认识生产者和消费者模式

为什么要使用生产者和消费者模式

Day 22 22.3：生产者和消费者模式的更多相关文章

随机推荐

热门专题