生产者消费者模式

认识生产者和消费者模式

生产者和消费者是异步爬虫中很常见的一个问题。产生数据的模块,我们称之为生产者,而处理数据的模块,就称为消费者。

例如:

​ 图片数据爬取中,解析出图片链接的操作就是在生产数据

​ 对图片链接发起请求下载图片的操作就是在消费数据

为什么要使用生产者和消费者模式

​ 在异步世界里,生产者就是生产数据的线程,消费者就是消费数据的线程。在多线程开发当中,如果生产者处理速度很快,而消费者处理速度很慢,那么生产者就必须等待消费者处理完,才能继续生产数据。同样的道理,如果消费者的处理能力大于生产者,那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

import requests
import threading
from lxml import etree
from queue import Queue
from urllib.request import urlretrieve
import os # filename = 'imgs'
# if not os.path.exists(filename):
# os.mkdir(filename)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
} # https://pic.netbian.com/4kmeinv/ # 1.创建两个数据模型类
# 1.1生产数据:解析提取图片地址
class Producer(threading.Thread): # 生产者线程
# 6.构造生产者模型生产方法
def __init__(self, page_queue, img_queue):
# 7.调用父类的构造方法继承
super().__init__()
self.page_queue = page_queue
self.img_queue = img_queue # 7.给生产者模型赋予任务:不断的生产数据
def run(self):
# print('正在执行Producer')
while True:
# 8.判断生产者队列是否为空
if self.page_queue.empty(): # 如果判断为空,则表示所有连接已经请求完成,结束请求
# print('结束执行Producer')
break
# 9.从page_queue中取出一个页码链接
url = self.page_queue.get()
# print(url)
# 从当前的页码对应的页面中解析出更多的图片地址
self.parse_detail(url) # 10.定义一个解析数据方法
def parse_detail(self, url):
response = requests.get(url=url, headers=headers)
response.encoding = 'gbk'
page_text = response.text
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="main"]/div[3]/ul/li')
for li in li_list:
img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
img_title = li.xpath('./a/b/text()')[0] + '.jpg'
# 11.将src和title封装成字典
dic = {
'src': img_src,
'title': img_title
}
# print(dic)
# 12.将字典传递到消费者队列
self.img_queue.put(dic) # 1.2消费数据:对图片地址进行数据请求
class Consumer(threading.Thread): # 消费者线程
# 13.消费者将每一个图片数据做请求并解析存储
# 构建类方法(构造方法固定)
def __init__(self, page_queue, img_queue):
super().__init__()
self.page_queue = page_queue
self.img_queue = img_queue # 14.给消费者模型赋予任务:不断的消费数据
def run(self):
# print('正在执行Consumer')
# 15.判断消费者队列和生产者队列是否为空
while True:
# 16.若二者都为空,则表示生产者队列和生产者队列均无数据可做请求解析
if self.img_queue.empty() and self.page_queue.empty():
# print('结束执行Consumer')
break
# 17.如不为空,则表示还有待处理的数据,则取出继续处理
# img_queue:队列中传送过来的数据为字典,从字典中取出数据
dic = self.img_queue.get()
title = dic['title']
src = dic['src']
# 18.urlretrieve可以直接对图片地址发请求并做持久化存储
urlretrieve(src, 'imgs/' + title)
print(title, '下载完成!') def main():
# 2.创建队列
# 2.1该队列中存储将要爬取的页面页码链接
page_queue = Queue(30) # 队列当中最多能存10个链接元素
# 2.2该队列存储生产者生产出来的图片地址
img_queue = Queue(80) # 队列中最多能存储50个链接元素 # 3.循环获取页面页码链接
# 该循环可以将2,3,4这三个页码链接放入page_queue
for x in range(2, 15):
url = 'https://pic.netbian.com/4kmeinv/index_%d.html' % x
# 将每一个页面页码链接添加到队列中
page_queue.put(url)
# print(url)
# print(page_queue)
# 4.生产者生产线程
# 创建三个生产者线程并启动
for x in range(3):
t = Producer(page_queue, img_queue)
t.start()
# 5.消费者消费线程
# 创建三个消费者线程并启动
for x in range(3):
t = Consumer(page_queue, img_queue)
t.start() main()

Day 22 22.3:生产者和消费者模式的更多相关文章

  1. java进阶(40)--wait与notify(生产者与消费者模式)

    文档目录: 一.概念 二.wait的作用 三.notify的作用 四.生产者消费者模式 五.举例 ---------------------------------------分割线:正文------ ...

  2. 使用libuv实现生产者和消费者模式

    生产者和消费者模式(Consumer + Producer model) 用于把耗时操作(生产线程),分配给一个或者多个额外线程执行(消费线程),从而提高生产线程的响应速度(并发能力) 定义 type ...

  3. java生产者与消费者模式

    前言: 生产者和消费者模式是我们在学习多线程中很经典的一个模式,它主要分为生产者和消费者,分别是两个线程, 目录 一:生产者和消费者模式简介 二:生产者和消费者模式的实现 声明:本例来源于java经典 ...

  4. condition版生产者与消费者模式

    1.简介 在爬虫中,生产者与消费者模式是经常用到的.我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型.如果直接起线程进行构造生产者消费者模型,线程容易假死,也难以构造 ...

  5. Java并发编程(4)--生产者与消费者模式介绍

    一.前言 这种模式在生活是最常见的,那么它的场景是什么样的呢? 下面是我假象的,假设有一个仓库,仓库有一个生产者和一个消费者,消费者过来消费的时候会检测仓库中是否有库存,如果没有了则等待生产,如果有就 ...

  6. Java多线程设计模式(2)生产者与消费者模式

    1 Producer-Consumer Pattern Producer-Consumer Pattern主要就是在生产者与消费者之间建立一个“桥梁参与者”,用来解决生产者线程与消费者线程之间速度的不 ...

  7. 【爬虫】Condition版的生产者和消费者模式

    Condition版的生产者和消费者模式 threading.Condition 在没有数据的时候处于阻塞状态,有数据可以使用notify的函数通知等等待状态的线程运作 threading.Condi ...

  8. 【爬虫】Load版的生产者和消费者模式

    ''' Lock版的生产者和消费者模式 ''' import threading import random import time gMoney = 1000 # 原始金额 gLoad = thre ...

  9. java 线程并发(生产者、消费者模式)

    线程并发协作(生产者/消费者模式) 多线程环境下,我们经常需要多个线程的并发和协作.这个时候,就需要了解一个重要的多线程并发协作模型“生产者/消费者模式”. Ø 什么是生产者? 生产者指的是负责生产数 ...

  10. Java中生产者与消费者模式

    生产者消费者模式 首先来了解什么是生产者消费者模式.该模式也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例.该问题描述了两个共享固定大小缓冲区的线 ...

随机推荐

  1. 如何在 .Net 7 中将 Query 绑定到数组

    在 .Net 7 中,我们可以通过绑定数组的方式来接收来自查询字符串的参数.这样就不需要再使用逗号分隔的字符串来获取参数了. 代码演示 假设我们需要从 query 上接受多个 id 并返回查询的结果. ...

  2. 洛谷P2196例题分析

    [NOIP1996 提高组] 挖地雷(原题) 题目描述 在一个地图上有\(N\)个地窖\((N \le 20)\),每个地窖中埋有一定数量的地雷.同时,给出地窖之间的连接路径.当地窖及其连接的数据给出 ...

  3. [OpenCV实战]37 图像质量评价BRISQUE

    摄影是全世界数百万人最喜爱的爱好.毕竟,这有多难啊!用美国著名摄影师阿巴斯•黛安娜的话来说: 拍照就像深夜踮着脚尖走进厨房,偷奥利奥饼干. 拍照很容易,但是拍一张高质量的照片却很难.它需要良好的组成和 ...

  4. [生命科学] 生物基础实验之DNA提取

    生物基础实验之DNA提取实验 基因组DNA的提取通常用于构建基因组文库.Southern杂交(包括RFLP)及PCR分离基因等.利用基因组DNA较长的特性,可以将其与细胞器或质粒等小分子DNA分离. ...

  5. 1_ES6中拓展运算符的使用

    一,拓展运算符(...) 拓展运算符(...):它会以参数序列的形式输出,更白话讲,比如数组,它可以把数组里面的东西一个一个的输出出来,例如 1 let arr1 =["你",&q ...

  6. nginx: [emerg] "auth_basic" directive is duplicate

    错误信息 nginx: [emerg] "auth_basic" directive is duplicate in phpmyadmin.conf:14 nginx: confi ...

  7. Miller-Rabin 与 Pollard-Rho 算法学习笔记

    前言 Miller-Rabin 算法用于判断一个数 \(p\) 是否是质数,若选定 \(w\) 个数进行判断,那么正确率约是 \(1-\frac{1}{4^w}\) ,时间复杂度为 \(O(\log ...

  8. 可持久化杀手——rope学习笔记

    概述 std::rope,内部一说是可持久化平衡树,一说是块状链表. 它可以实现很多可持久化数组问题. 基本使用 #include<bits/extc++.h> using namespa ...

  9. 【力扣】787. K 站中转内最便宜的航班加权——有向图最短路径

    前言 我感觉这题比较有代表性,所以记录一下,这题是加权有向图中求最短路径的问题. 题目 787. K 站中转内最便宜的航班 动态规划 假设有一条路径是[src, i, ..., j, dst],解法一 ...

  10. 【总结笔记】全志平台 Linux ASOC 框架浅析

    ASOC 各部分框图示意 Platform 一般由 SOC 芯片原厂负责编写,主要涉及到 SOC 内部数字音频接口DAI(I2S)和 DMA 的寄存器配置. Codec 一般由硬件方案的驱动工程师或者 ...