python实现并发获取html的几种方式

1.线程池

from concurrent.futures import ThreadPoolExecutor
import requests
from fake_useragent import UserAgent

def task(url):
    res = requests.get(url,
                       headers={"User-Agent": UserAgent().chrome})
    print(f"{url}--{res}")

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

executor = ThreadPoolExecutor(max_workers=3)

tasks = [executor.submit(task, url) for url in url_list]
executor.shutdown(wait=True)

2.asyncio+aiohttp

import asyncio
import aiohttp

async def task(url):
    async with aiohttp.request("GET", url) as response:
        res = await response.text()
        print(res)

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

tasks = [task(url) for url in url_list]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))

3.gevent

from gevent import monkey
monkey.patch_all()
import gevent
from fake_useragent import UserAgent
import requests

def task(url):
    res = requests.get(url,
                       headers={"User-Agent": UserAgent().chrome})
    res.encoding = res.apparent_encoding
    print(f"{url}--{res.text}")

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

gevent.joinall([gevent.spawn(task, url) for url in url_list])

4.tornado

from tornado.httpclient import AsyncHTTPClient
from tornado.httpclient import HTTPRequest
from tornado import ioloop
from functools import partial
from fake_useragent import UserAgent

count = None
def handler_response(response):
    global count
    count -= 1
    if response.error:
        print("error")
    else:
        print(response.effective_url)
    if count == 0:
        ioloop.IOLoop.current().stop()

def func(url_list):
    global count
    count = len(url_list)
    for url in url_list:
        client = AsyncHTTPClient()
        client.fetch(HTTPRequest(url, headers={"User-Agent": UserAgent().chrome}), callback=handler_response)

url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]

ioloop.IOLoop.current().run_sync(partial(func, url_list))
ioloop.IOLoop.current().start()

5. twisted

from twisted.internet import reactor  # 事件循环（终止条件，所有的socket都已经移除）
from twisted.internet import defer  # defer.Deferred 特殊的socket对象（不发请求，手动移除）
from twisted.web.client import getPage  # 用于创建socket对象（下载完成，自动从事件循环中移除）
from fake_useragent import UserAgent

# 1. 利用getPage创建socket
# 2. 将socket添加到事件循环
# 3. 开始事件循环（内部发送请求，并接受相应。当所有的socket请求完成之后，终止事件循环）

@defer.inlineCallbacks  # 添加到事件循环
def task(url):
    # 创建socket,注意url要转换成字节。headers中的"User-Agent"也要是字节
    d = getPage(bytes(url, encoding="utf-8"), headers={b"User-Agent": UserAgent().chrome})
    # 获取到的html页面会自动传到response函数的第一个参数里面
    d.addCallback(response)
    yield d

def response(content):
    print(str(content, encoding="utf-8"))

def done(*args):
    reactor.stop()
url_list = ["http://www.baidu.com",
            "http://www.acfun.cn",
            "http://www.bilibili.com",
            "http://www.zhihu.com",
            "http://www.douban.com"]
defer_list = []
for url in url_list:
    t = task(url)
    defer_list.append(t)
# 监听defer_list里面的任务是否执行完毕
d = defer.DeferredList(defer_list)
#如果执行完毕，执行对应的回调函数
d.addBoth(done)
# 启动事件循环
reactor.run()

python实现并发获取html的几种方式的更多相关文章

获取Type的三种方式
using System;using UnityEngine; public class Type_Test : MonoBehaviour{ private void Awake() { ...
java动态获取WebService的两种方式（复杂参数类型)
java动态获取WebService的两种方式(复杂参数类型) 第一种: @Override public OrderSearchListRes searchOrderList(Order_Fligh ...
AngularJS中获取数据源的几种方式
在AngularJS中,可以从$rootScope中获取数据源,也可以把获取数据的逻辑封装在service中,然后注入到app.run函数中,或者注入到controller中.本篇就来整理获取数据的几 ...
java 获取时间戳的三种方式
java 获取时间戳的三种方式 CreationTime--2018年7月13日16点29分 Author:Marydon 1.实现方式方式一:推荐使用 System.currentTimeMi ...
【Struts2】Struts2获取session的三种方式
1.Map<String,Object> map = ActionContext.getContext().getSession(); 2.HttpSession session = S ...
js获取时间戳的三种方式
js获取时间戳的三种方式 CreateTime--2018年5月23日08:44:10 Author:Marydon // 方式一:推荐使用 var timestamp=new Date().ge ...
Struts2(四.注册时检查用户名是否存在及Action获取数据的三种方式)
一.功能 1.用户注册页面 <%@ page language="java" contentType="text/html; charset=UTF-8" ...
HTTP获取信息的四种方式
HTTP 从网络获取信息的四种方式 GET GET指代你在浏览器中输入网址,浏览网站时做的事.例如,我们使用 http://www.baidu.com 的时候,可以将GET想象成他说:"hi ...
SpringMVC获取参数的几种方式
前言: 年末了,忙了一年了却发现系统的整理的东西很少,一些基础的东西都未做整理,这里就将它随便整理一下,增加一些印象,当然在网上看到一些好的资料也会整理下来以备后用.今天整理一下springMVC获取 ...

随机推荐

通过Aspose.Word和ZXING生成复杂的WORD表格
1.前言这是我之前做的一个项目中要求的功能模块,它的需求是生成一个WORD文档,需要每页一个表格并且表格中需要插入文字.条形码和二维码等信息,页数可控制.具体的效果如下图所示: 可以看到有以下几点是 ...
sql查询作业答案
sql查询作业答案阅读目录一题目二答案一题目 1.查询所有的课程的名称以及对应的任课老师姓名 2.查询学生表中男女生各有多少人 3.查询物理成绩等于100的学生的姓名 4.查询平均成 ...
P2580 于是他错误的点名开始了(trie)
P2580 于是他错误的点名开始了题目背景 XS中学化学竞赛组教练是一个酷爱炉石的人. 他会一边搓炉石一边点名以至于有一天他连续点到了某个同学两次,然后正好被路过的校长发现了然后就是一顿欧拉欧拉欧拉 ...
Docker构建nginx+uwsgi+flask镜像（二）
Dockerfile搭建环境并打包应用在上一章Docker构建nginx+uwsgi+flask镜像(一)的学习中,我们学会用命令行一句一句在alpine环境中搭建nginx+uwsgi+flask ...
《Cracking the Coding Interview》——第12章：测试——题目1
2014-04-24 23:10 题目:找出下面代码里的错误. 解法:请看下面. 代码: // 12.1 What's wrong with the following code segment? # ...
《Cracking the Coding Interview》——第11章：排序和搜索——题目3
2014-03-21 20:55 题目:给定一个旋转过的升序排序好的数组,不知道旋转了几位.找出其中是否存在某一个值. 解法1:如果数组的元素都不重复,那么我的解法是先找出旋转的偏移量,然后进行带偏移 ...
securecrt切换会话(session)的显示方式
Window(窗口)-> Tabs(选项卡)/Tile Vertically(垂直平铺)/Tile Horizontally(水平平铺)/Cascade(瀑布,如下图效果)
Python 3基础教程16-类
本文介绍类和简单使用,类是需要class这个关键字来声明的,一般如下面的语法: class className: def fun1(): pass def fun2(): pass 看下面demo.p ...
centos6系列问题
一.NetworkManager启动问题 1.由于以后要支持e1000版虚拟化网卡,所有centos6镜像均按照NetworkManager服务,并设置开机自启动 2.虚机启动时,默认是Network ...
django orm 之makemigrations和migrate命令
makemigrations:将模型的更改生成迁移脚本文件.模型所在的app,必须放在settings.py中的INSTALLED_APPS列表中.这个命令有以下几个常用选项: 1.app_label ...

python实现并发获取html的几种方式

1.线程池

2.asyncio+aiohttp

3.gevent

4.tornado

5. twisted

python实现并发获取html的几种方式的更多相关文章

随机推荐

热门专题