python 生产者 --- 消费者

值得拿出来看看的

多进程爬取 (生产) ，解析 (消费) 网页同时进行，可以作为以后项目扩展使用

from bs4 import BeautifulSoup

import requests

import time

import multiprocessing as mp

import re

from multiprocessing import Queue

# from multiprocessing import JoinableQueue as Queue

base_url = 'https://morvanzhou.github.io/'

def crawl(url):

    html = requests.get(url).text

    # 模拟请求时间消耗 0.1 s

    time.sleep(0.1)

    return html

def parse(html):

    soup = BeautifulSoup(html,'lxml')

    all_anchors = soup.find_all('a',{'href':re.compile(r'^/.+?/$')})

#     title = soup.find('meta',{'property':'og:title'})

    page_urls = {anchor.get_text().strip():base_url+anchor['href'] for anchor in all_anchors}

    main_url = soup.find('meta',{'property':'og:url'})['content']

    return main_url,page_urls

# print(html)

def main():

    # unseen 本可以定义多个

    unseen = (base_url,)

    seen = ()

    # 为了让 html 爬取 与 html 解析 同步进行，所以这里使用 生产者--消费者 模式

    html_queue = Queue()

    # 开启进程池

    # 生产者 即 html 爬取

    crawl_pool = mp.Pool(2)

    # 消费者 即 html 解析

    parse_pool = mp.Pool(2)

    for url in unseen:

        # 若一直 有 要被爬取的 html 则 一直进行

        html_queue.put(crawl_pool.apply_async(crawl,args=(url,)).get())

    else:

        # 已经爬取完成所有 页面

        html_queue.put(None) # 此处向队列发送 生产完成信号,不然方法一直被阻塞

    results = []

    # 开启循环 消费生产出的 html，对其进行解析

    while True:

        html=html_queue.get()

        if html:

            results.append(parse_pool.apply_async(parse,args=(html,)).get())

        else:

#             html_queue.task_done()

            break

    print(results)

if __name__ == '__main__':

    main()

python 生产者 --- 消费者的更多相关文章

python生产者消费者模型
业界用的比较广泛,多线程之间进行同步数据的方法,解决线程之间堵塞,互相不影响. server --> 生产者 client --> 消费者在一个程序中实现又有生产者又有消费者 ,生产者不 ...
python生产者消费者模型优点
生产者消费者模型:解耦,通过队列降低耦合,支持并发,生产者和消费者是两个独立的并发体,他们之间使用缓存区作为桥梁连接,生产者指望里丢数据,就可以生产下一个数据了,消费者从中拿数据,这样就不会阻塞,影响 ...
操作系统OS，Python - 生产者消费者模型
1. 缓冲区(此处用阻塞队列充当),解决消费者和生产者强耦合问题.(生产者和消费者不直接通信) 2. 通过平衡生产者线程和消费者线程,来提高程序整体处理数据速度. 3. 在并发编程中该模式能解决大多数 ...
python 生产者消费者模型
import time def consumer(name): print("%s开始吃包子了"%name) while True: ret = yield time.sleep( ...
Python学习笔记——进阶篇【第九周】———线程、进程、协程篇（队列Queue和生产者消费者模型）
Python之路,进程.线程.协程篇本节内容进程.与线程区别 cpu运行原理 python GIL全局解释器锁线程语法 join 线程锁之Lock\Rlock\信号量将线程变为守护进程 Ev ...
【Python@Thread】queue模块-生产者消费者问题
python通过queue模块来提供线程间的通信机制,从而可以让线程分项数据. 个人感觉queue就是管程的概念一个生产者消费者问题 from random import randint from ...
进程，线程，GIL，Python多线程，生产者消费者模型都是什么鬼
1. 操作系统基本知识,进程,线程 CPU是计算机的核心,承担了所有的计算任务: 操作系统是计算机的管理者,它负责任务的调度.资源的分配和管理,统领整个计算机硬件:那么操作系统是如何进行任务调度的呢? ...
python并发编程之多进程(二)：互斥锁（同步锁）&进程其他属性&进程间通信（queue）&生产者消费者模型
一,互斥锁,同步锁进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的, 竞争带来的结果就是错乱,如何控制,就是加锁处理 part1:多个进程共享同一打印终 ...
Python 使用python-kafka类库开发kafka生产者&消费者&客户端
使用python-kafka类库开发kafka生产者&消费者&客户端 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...

随机推荐

MongoDB自学(3)
MongoDB关系:MongoDB的关系表示多个文档之间在逻辑上的相互联系.文档之间可以通过嵌入和引用来建立联系.关系:1:11:NM:1M:N 嵌入式:{ id:11;name:嘻嘻嘻;addres ...
解决consul覆盖注册
默认注册consul的服务id为服务名-端口号,相同的服务名和端口号注册会覆盖解决方式: 1.自定义Consul注册Id import com.ecwid.consul.v1.ConsulClien ...
FLIR 相机采集程序
https://www.ptgrey.com/Downloads/GetSecureDownloadItem/11048 Grasshopper3 4.1 MP Mono USB3 Vision (C ...
app测试中隐藏键盘
1.参考连接 https://www.cnblogs.com/raindrop2007/articles/7849905.html 2.在项目中的使用 2.1 设置手机上的“语言输入法”,选择appi ...
Effective C++ 第0章 copy constructor和copy assignment operator
拷贝构造函数(copy constructor)被用来以一个对象来初始化同类型的另一个对象,拷贝赋值运算符(copy assignment operator)被用来将一个对象中的值拷贝到同类型的另一个 ...
Android Studio自定义注释模板
一.自定义新建文件时生成的注释 setting->Editor->File and Code Templates->Includes->File Header,在这里输入自定义 ...
iOS App上架流程(2016详细版）来源DeveloperLY
一.前言: 作为一名iOSer,把开发出来的App上传到App Store是必要的.下面就来详细讲解一下具体流程步骤. 二.准备: 一个已付费的开发者账号(账号类型分为个人(Individual).公 ...
Hive基础知识
一.产生背景 1.MapReudce编程繁琐,需要编写大量的代码 2.HDFS中存放的都是文件,在HDFS中没有Scheme的概念,无法用SQL进行快速的查询. 二.Hive的概念 Hive是基于Ha ...
jmeter学习记录--10--二次开发环境搭建
JMeter源码集成到Eclipse.JMeter二次开发(1)-eclipse环境配置及源码编译 ,根据此文章记录将jmeter源码集成到myecplise 第一步:下载jmeter源码http:/ ...
web开发中各种宽高
Gosper 曲线:https://www.cnblogs.com/tgzhu/p/8286616.html

python 生产者 --- 消费者

值得拿出来 看看的

多进程 爬取 (生产) ， 解析 (消费) 网页 同时进行，可以作为以后项目扩展使用

python 生产者 --- 消费者的更多相关文章

随机推荐

热门专题

值得拿出来看看的

多进程爬取 (生产) ，解析 (消费) 网页同时进行，可以作为以后项目扩展使用