python爬虫-使用线程池与使用协程的实例

背景：爬取豆瓣电影top250的信息

使用线程池

import re

from concurrent.futures import ThreadPoolExecutor

import requests

#获取豆瓣电影top250电影名字、导演、评分、评价人数

def getDoubanRource(url):

    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}

    res=requests.get(url,headers=header)

    #获取页面源代码

    pagesource = res.text

    #预加热正则表达式对象

    obj=re.compile(r'<span class="title">(?P<filmname>.*?)</span>.*?<p class="">\s*(?P<director>.*?)'

                   r' .*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<person>.*?)评价</span>',re.S)

    reptile_res=obj.finditer(pagesource)

    with open("D:\dir_ytj\\dome1.csv",mode="a") as f:

        for item in reptile_res :

            filmname=item.group("filmname")

            director = item.group("director")

            score = item.group("score")

            person = item.group("person")

            f.write(f"{filmname},{director},{score},{person}\n")

        print(url,"收取完毕")

if __name__ == '__main__':

    with ThreadPoolExecutor(10) as t:

        for i in range(10):

            t.submit(getDoubanRource,f"https://movie.douban.com/top250?start={25*i}&filter=")

    print("完成全部信息收录")

使用协程

import asyncio

import sys,io

import re

from concurrent.futures import ThreadPoolExecutor

import requests

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

#获取豆瓣电影top250电影名字、导演、评分、评价人数

async def writeCsv(filmname,director,score,person):

    with open("D:\dir_ytj\\dome2.csv", mode="a") as f:

        f.write(f"{filmname},{director},{score},{person}\n")

async def getDoubanRource(url):

    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}

    res=requests.get(url,headers=header)

    #获取页面源代码

    pagesource = res.text

    #预加热正则表达式对象

    obj=re.compile(r'<span class="title">(?P<filmname>.*?)</span>.*?<p class="">\s*(?P<director>.*?)'

                   r' .*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?<span>(?P<person>.*?)评价</span>',re.S)

    reptile_res=obj.finditer(pagesource)

    tasks=[]

    for item in reptile_res :

        filmname=item.group("filmname")

        director = item.group("director")

        score = item.group("score")

        person = item.group("person")

        tasks.append(writeCsv(filmname,director,score,person))

    await asyncio.wait(tasks)

if __name__ == '__main__':

    print("正在收集网页信息......")

    for i in range(10):

        asyncio.run(getDoubanRource(f"https://movie.douban.com/top250?start={25*i}&filter="))

    print("收集完成")

python爬虫-使用线程池与使用协程的实例的更多相关文章

python爬虫之线程池和进程池
一.需求最近准备爬取某电商网站的数据,先不考虑代理.分布式,先说效率问题(当然你要是请求的太快就会被封掉,亲测,400个请求过去,服务器直接拒绝连接,心碎),步入正题.一般情况下小白的我们第一个想到 ...
day35:线程队列&进程池和线程池&回调函数&协程
目录 1.线程队列 2.进程池和线程池 3.回调函数 4.协程:线程的具体实现 5.利用协程爬取数据线程队列 1.线程队列的基本方法 put 存 get 取 put_nowait 存,超出了队列长度 ...
Python 线程----线程方法,线程事件,线程队列,线程池,GIL锁,协程,Greenlet
主要内容: 线程的一些其他方法线程事件线程队列线程池 GIL锁协程 Greenlet Gevent 一. 线程(threading)的一些其他方法 from threading import ...
Python爬虫之线程池
详情点我跳转关注公众号"轻松学编程"了解更多. 一.为什么要使用线程池? 对于任务数量不断增加的程序,每有一个任务就生成一个线程,最终会导致线程数量的失控,例如,整站爬虫,假设初 ...
python队列、线程、进程、协程
目录: 一.queue 二.线程基本使用线程锁自定义线程池生产者消费者模型(队列) 三.进程基本使用进程锁进程数据共享默认数据不共享 queues array Manager.dict ...
python队列、线程、进程、协程(转)
原文地址: http://www.cnblogs.com/wangqiaomei/p/5682669.html 一.queue 二.线程 #基本使用 #线程锁 #自定义线程池 #生产者消费者模型(队列 ...
python基础之线程、进程、协程
线程线程基础知识一个应用程序,可以多进程.也可以多线程. 一个python脚本,默认是单进程,单线程的. I/O操作(音频.视频.显卡操作),不占用CPU,所以: 对于I/O密集型操作,不会占用C ...
python之路线程、进程、协程、队列、python-memcache、python-redis
一.线程 Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元. #!/usr/bin/env python # -*- coding:utf-8 -*- import threa ...
Python：简述线程、进程和协程
Python线程定义:Threading用于提供线程相关的操作,线程是应用程序中工作的最小单元. #!/usr/bin/env python # -*- coding:utf-8 -*- impor ...

随机推荐

配置phpmemcache扩展，Loaded Configuration File (none)
首先我来描述问题: 编译安装完php的扩展库memcache后,在php.ini文件中添加了memcache.so的配置文件 extension=/usr/local/php5.6.27/lib/ph ...
Java使用DOM方式读写XML
一.DOM读取 import ***; public class ReadXML { public static void main(String[] args) { try { //DOM Docu ...
drop、truncate、delete的区别
(1)DELETE语句执行删除的过程是每次从表中删除一行,并且同时将该行的删除操作作为事务记录在日志中保存以便进行进行回滚操作. TRUNCATE TABLE 则一次性地从表中删除所有的数据并不把单独 ...
CopyOnWriteList揭秘
List的并发容器-CopyOnWriteList Vector和SynchronizedList ArrayList是用来代替Vector,Vector是线程安全的容器,因为它在方法上都加上了syn ...
03并发编程（多道技术+进程理论+进程join方法）
目录 03 并发编程 03 并发编程
Solution -「Gym 102798E」So Many Possibilities...
\(\mathcal{Description}\) Link. 给定非负整数序列 \(\{a_n\}\) 和 \(m\),每次随机在 \(\{a\}\) 中取一个非零的 \(a_i\)(保证存 ...
我们一起来学Shell - shell的数组
文章目录什么是数组数组中常用变量数组的定义小括号定义数组变量小括号加键值对定义数组变量分别定义数组变量动态地定义数组变量数组赋值的切片遍历数组关联数组我们一起来学Shell - ...
ASP.NET Core 6框架揭秘-实例演示版[持续更新中…]
作为<ASP.NET Core 3框架揭秘>的升级版,<ASP.NET Core 6框架揭秘>提供了很多新的章节,同时对现有的内容进行大量的修改.虽然本书旨在对ASP.NET ...
transient关键字有何作用
使用对象流保存对象时,将对象的全部信息都保存了,但是有些信息是不希望保存,如密码,该如何避免该信息的保存? 使用transient关键字修饰的属性,在保存对象时,该属性并不会被保存. transien ...
HDFS免重启挂载新磁盘
背景在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的 ...

python爬虫-使用线程池与使用协程的实例

python爬虫-使用线程池与使用协程的实例的更多相关文章

随机推荐

热门专题