Python 多线程、线程池、协程爬虫

多线程生产者消费者模型爬虫

import queue

import requests

from bs4 import BeautifulSoup

import threading

import time

import random

def craw(url):

    r = requests.get(url=url)

    return r.text

def parse(html):

    soup = BeautifulSoup(html, "html.parser")

    links = soup.find_all("a", class_="post-time-title")

    return [(link["href"], link.get_test()) for link in links]

def do_craw(url_queue: queue.Queue, html_queue: queue.Queue):

    while True:

        url = url_queue.get()

        html = craw(url)

        html_queue.put(html)

        print(threading.current_thread().name, url)

        time.sleep(random.randint(1,2))

def do_parse(html_queue:queue.Queue, f_out):

    while True:

        html = html_queue.get()

        results = parse(html)

        for result in results:

            f_out.write(str(result) + "\n")

        print(threading.current_thread().name, html_queue.qsize())

        time.sleep(1)

if __name__ == '__main__':

    url_queue = queue.Queue()

    html_queue = queue.Queue()

    for url in ["https://www.cnblogs.com/#p{}".format(i) for i in range(1, 25)]:

        url_queue.put(url)

    for idx in range(3):

        t = threading.Thread(target=do_craw, args=(url_queue, html_queue), name=f"craw-{idx}")

        t.start()

    file = open("02.data.txt", "w")

    for idx in range(2):

        d = threading.Thread(target=do_parse, args=(html_queue, file), name=f"parse-{idx}")

        d.start()

多线程池爬虫

from concurrent.futures import ThreadPoolExecutor, as_completed

import requests

from bs4 import BeautifulSoup

spider_url = ["https://www.cnblogs.com/#p{}".format(i) for i in range(1, 25)]

def craw(url):

    r = requests.get(url=url)

    return r.text

def parse(html):

    soup = BeautifulSoup(html, "html.parser")

    links = soup.find_all("a", class_="post-time-title")

    return [(link["href"], link.get_test()) for link in links]

# craw

with ThreadPoolExecutor() as pool:

    htmls = pool.map(craw, spider_url)

    htmls = list(zip(spider_url, htmls))

    for k, v in htmls:

        print(k, len(v))

with ThreadPoolExecutor() as pool:

    futures = {}

    for url, html in htmls:

        future = pool.submit(parse, html)

        futures[future] = url

    # for k, v in futures.items():

    #     print(v, k.result())

    for future in as_completed(futures):

        print(futures[future], future.result())

协程

import asyncio

import aiohttp

spider_url = ["https://www.cnblogs.com/taozhengquan/p/14966535.html"]*50

# 信号量控制爬虫数量

semaphore = asyncio.Semaphore(10)

async def async_craw(url):

    async with semaphore:

        print("craw url:", url)

        async with aiohttp.ClientSession() as session:

            async with session.get(url) as resp:

                result = await resp.text()

                print(url, len(result))

loop = asyncio.get_event_loop()

tasks = [

    loop.create_task(async_craw(item)) for item in spider_url

]

loop.run_until_complete(asyncio.wait(tasks))

Python 多线程、线程池、协程爬虫的更多相关文章

python之路32 网络并发线程方法线程池协程
多进程实现TCP服务端并发服务端: import socket from multiprocessing import Process def get_server(): server = sock ...
python进程.线程和协程的总结
I.进程: II.多线程threading总结 threading用于提供线程相关的操作,线程是应用系统中工作的最小单位(cpu调用的最小单位). Python当前版本的多线程没有实现优先级,线程组, ...
互斥锁线程理论 GIL全局解释器锁死锁现象信号量 event事件进程池与线程池协程实现并发
目录互斥锁 multiprocessing Lock类锁的种类线程理论进程和线程对比开线程的两种方式(类似进程) 方式1 使用Thread()创建线程对象方式2 重写Thread类run方 ...
11.python之线程，协程，进程，
一,进程与线程 1.什么是线程线程是操作系统能够进行运算调度的最小单位.它被包含在进程之中,是进程中的实际运作单位.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行 ...
05网络并发（ GIL+进程池与线程池+协程+IO模型）
目录 05 网络并发 05 网络并发
python全栈开发 * 线程队列线程池协程 * 180731
一.线程队列队列:1.Queue 先进先出自带锁数据安全 from queue import Queue from multiprocessing import Queue (IPC队列)2.L ...
python并发编程-进程池线程池-协程-I/O模型-04
目录进程池线程池的使用***** 进程池/线程池的创建和提交回调验证复用池子里的线程或进程异步回调机制通过闭包给回调函数添加额外参数(扩展) 协程*** 概念回顾(协程这里再理一下) 如何实现 ...
python 线程(其他方法,队列,线程池,协程 greenlet模块 gevent模块)
1.线程的其他方法 from threading import Thread,current_thread import time import threading def f1(n): time.s ...
python简单线程和协程学习
python中对线程的支持的确不够,不过据说python有足够完备的异步网络框架模块,希望日后能学习到,这里就简单的对python中的线程做个总结 threading库可用来在单独的线程中执行任意的p ...
Day037--Python--线程的其他方法,GIL, 线程事件,队列,线程池,协程
1. 线程的一些其他方法 threading.current_thread() # 线程对象 threading.current_thread().getName() # 线程名称 threadi ...

随机推荐

Linux之隔离技术
前言 Linux的内核有两大特性Namespace和CGroup,这两种特性可以在Linux主机上实现主机名.用户.网络等全局资源的隔离,也是实现网络虚拟化.容器技术的基础. 命名空间 Linux N ...
scala 生成指定日期范围的list
可以通过scala中的流处理,生成指定范围内的日期list import java.time.LocalDate def dateStream(fromDt:LocalDate):Stream[Loc ...
总结：Apache/Tomcat/JBOSS/Jetty/Nginx之区别和联系
总结:Apache/Tomcat/JBOSS/Jetty/Nginx之区别和联系总结:Apache/Tomcat/JBOSS/Nginx区别 . 1.Apache是Web服务器,Tomcat是应用( ...
docker 应用篇————tomcat例子[七]
前言虽然我干的事情和java不多,但是例子是为了熟悉原理,而不是为了例子而例子的,故而整理一下tomcat的例子. 正文使用官方示例: 然后运行一下. 没有找到然后进行下载了. 可以看到这里就已经 ...
重新点亮linux 命令树————文件特殊权限[十一]
前言简单介绍一下文件特殊权限. 正文 SUID 用于二进制可执行文件,执行命令时取得文件属组权限如 /usr/bin/passwd 当我们使用passwd 修改密码的时候其实是以root用户身份进 ...
力扣500(java&python)-键盘行（简单）
题目: 给你一个字符串数组 words ,只返回可以使用在美式键盘同一行的字母打印出来的单词.键盘如下图所示. 美式键盘中: 第一行由字符 "qwertyuiop" 组成.第 ...
滴滴 Flink-1.10 升级之路
简介: 滴滴实时计算引擎从 Flink-1.4 无缝升级到 Flink-1.10 版本,做到了完全对用户透明.并且在新版本的指标.调度.SQL 引擎等进行了一些优化,在性能和易用性上相较旧版本都有很大 ...
网易数帆Curve加入PolarDB开源数据库社区
简介:Curve社区签署阿里巴巴开源CLA(Contribution License Agreement, 贡献许可协议), 正式与阿里云PolarDB 开源数据库社区牵手. Curve社区签署阿里 ...
dotnet SemanticKernel 入门开篇
本文将开坑告诉大家什么是 SemanticKernel 以及如何使用框架众所周知 GPT 是一个大语言模型,能够参与的输入和输出是文本内容.而想要让 GPT 完成各项功能,则需要对接现有的编程世界. ...
005_Orcad里创建Homogeneous分裂元件
005_Orcad里创建Homogeneous分裂元件两种类型Homogeneous和Hetergeneous的区别,都是用来把一个复杂的元件分成多个部分来画,不同的是homogeneous画的每部 ...

Python 多线程、线程池、协程 爬虫

多线程生产者消费者模型爬虫

多线程池爬虫

协程

Python 多线程、线程池、协程 爬虫的更多相关文章

随机推荐

热门专题

Python 多线程、线程池、协程爬虫

Python 多线程、线程池、协程爬虫的更多相关文章