python实现并发获取html的几种方式
1.线程池
from concurrent.futures import ThreadPoolExecutor
import requests
from fake_useragent import UserAgent
def task(url):
res = requests.get(url,
headers={"User-Agent": UserAgent().chrome})
print(f"{url}--{res}")
url_list = ["http://www.baidu.com",
"http://www.acfun.cn",
"http://www.bilibili.com",
"http://www.zhihu.com",
"http://www.douban.com"]
executor = ThreadPoolExecutor(max_workers=3)
tasks = [executor.submit(task, url) for url in url_list]
executor.shutdown(wait=True)
2.asyncio+aiohttp
import asyncio
import aiohttp
async def task(url):
async with aiohttp.request("GET", url) as response:
res = await response.text()
print(res)
url_list = ["http://www.baidu.com",
"http://www.acfun.cn",
"http://www.bilibili.com",
"http://www.zhihu.com",
"http://www.douban.com"]
tasks = [task(url) for url in url_list]
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
3.gevent
from gevent import monkey
monkey.patch_all()
import gevent
from fake_useragent import UserAgent
import requests
def task(url):
res = requests.get(url,
headers={"User-Agent": UserAgent().chrome})
res.encoding = res.apparent_encoding
print(f"{url}--{res.text}")
url_list = ["http://www.baidu.com",
"http://www.acfun.cn",
"http://www.bilibili.com",
"http://www.zhihu.com",
"http://www.douban.com"]
gevent.joinall([gevent.spawn(task, url) for url in url_list])
4.tornado
from tornado.httpclient import AsyncHTTPClient
from tornado.httpclient import HTTPRequest
from tornado import ioloop
from functools import partial
from fake_useragent import UserAgent
count = None
def handler_response(response):
global count
count -= 1
if response.error:
print("error")
else:
print(response.effective_url)
if count == 0:
ioloop.IOLoop.current().stop()
def func(url_list):
global count
count = len(url_list)
for url in url_list:
client = AsyncHTTPClient()
client.fetch(HTTPRequest(url, headers={"User-Agent": UserAgent().chrome}), callback=handler_response)
url_list = ["http://www.baidu.com",
"http://www.acfun.cn",
"http://www.bilibili.com",
"http://www.zhihu.com",
"http://www.douban.com"]
ioloop.IOLoop.current().run_sync(partial(func, url_list))
ioloop.IOLoop.current().start()
5. twisted
from twisted.internet import reactor # 事件循环(终止条件,所有的socket都已经移除)
from twisted.internet import defer # defer.Deferred 特殊的socket对象(不发请求,手动移除)
from twisted.web.client import getPage # 用于创建socket对象(下载完成,自动从事件循环中移除)
from fake_useragent import UserAgent
# 1. 利用getPage创建socket
# 2. 将socket添加到事件循环
# 3. 开始事件循环(内部发送请求,并接受相应。当所有的socket请求完成之后,终止事件循环)
@defer.inlineCallbacks # 添加到事件循环
def task(url):
# 创建socket,注意url要转换成字节。headers中的"User-Agent"也要是字节
d = getPage(bytes(url, encoding="utf-8"), headers={b"User-Agent": UserAgent().chrome})
# 获取到的html页面会自动传到response函数的第一个参数里面
d.addCallback(response)
yield d
def response(content):
print(str(content, encoding="utf-8"))
def done(*args):
reactor.stop()
url_list = ["http://www.baidu.com",
"http://www.acfun.cn",
"http://www.bilibili.com",
"http://www.zhihu.com",
"http://www.douban.com"]
defer_list = []
for url in url_list:
t = task(url)
defer_list.append(t)
# 监听defer_list里面的任务是否执行完毕
d = defer.DeferredList(defer_list)
#如果执行完毕,执行对应的回调函数
d.addBoth(done)
# 启动事件循环
reactor.run()
python实现并发获取html的几种方式的更多相关文章
- 获取Type的三种方式
using System;using UnityEngine; public class Type_Test : MonoBehaviour{ private void Awake() { ...
- java动态获取WebService的两种方式(复杂参数类型)
java动态获取WebService的两种方式(复杂参数类型) 第一种: @Override public OrderSearchListRes searchOrderList(Order_Fligh ...
- AngularJS中获取数据源的几种方式
在AngularJS中,可以从$rootScope中获取数据源,也可以把获取数据的逻辑封装在service中,然后注入到app.run函数中,或者注入到controller中.本篇就来整理获取数据的几 ...
- java 获取时间戳的三种方式
java 获取时间戳的三种方式 CreationTime--2018年7月13日16点29分 Author:Marydon 1.实现方式 方式一:推荐使用 System.currentTimeMi ...
- 【Struts2】Struts2获取session的三种方式
1.Map<String,Object> map = ActionContext.getContext().getSession(); 2.HttpSession session = S ...
- js获取时间戳的三种方式
js获取时间戳的三种方式 CreateTime--2018年5月23日08:44:10 Author:Marydon // 方式一:推荐使用 var timestamp=new Date().ge ...
- Struts2(四.注册时检查用户名是否存在及Action获取数据的三种方式)
一.功能 1.用户注册页面 <%@ page language="java" contentType="text/html; charset=UTF-8" ...
- HTTP获取信息的四种方式
HTTP 从网络获取信息的四种方式 GET GET指代你在浏览器中输入网址,浏览网站时做的事.例如,我们使用 http://www.baidu.com 的时候,可以将GET想象成他说:"hi ...
- SpringMVC获取参数的几种方式
前言: 年末了,忙了一年了却发现系统的整理的东西很少,一些基础的东西都未做整理,这里就将它随便整理一下,增加一些印象,当然在网上看到一些好的资料也会整理下来以备后用.今天整理一下springMVC获取 ...
随机推荐
- 小白日记1:kali环境Wpscan渗透Wordpress
一.什么是Wpscan?什么是Wordpres? 1.Wpscan WPScan是一款针对wordpress的安全扫描软件:可以扫描出wordpress的版本,主题,插件,后台用户以及爆破后台用户密码 ...
- 5,Linux之文档与目录结构
Linux文件系统结构 Linux目录结构的组织形式和Windows有很大的不同.首先Linux没有“盘(C盘.D盘.E盘)”的概念.已经建立文件系统的硬盘分区被挂载到某一个目录下,用户通过操作目录来 ...
- startActivityForResult 请求码不正确
今天遇到一个坑,就是 startActivityForResult 接收不到正确的请求码. 比如,我startActivityForResult的时候,设置的请求码是4,但是接收到的时候是100032 ...
- Hbase物理存储
物理模型 每个column family存储在HDFS上的一个单独文件中,空值不会被保存. Key 和 Version number在每个column family中均有一份: HBase为每个值维护 ...
- mybatis异常:There is no getter for property named 'xxx' in 'xxx'
在使用mybatis查询的时候出现了下面的异常: org.apache.ibatis.reflection.ReflectionException: There is no getter for pr ...
- ios在tableview里面加subview后在ip4和ip5上显示不一样的问题
文章链接:http://quke.org/post/ios-tableview-addsubview-height.html (转载时请注明本文出处及文章链接) 我在在tableview里面加subv ...
- Pytest框架介绍
Pytest框架介绍.安装 pytest是python测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,功能更强大 pytest特征 1:断言提示信 ...
- heat模板
Heat 目前支持两种格式的模板,一种是基于 JSON 格式的 CFN 模板:另外一种是基于 YAML 格式的 HOT 模板.CFN 模板主要是为了保持对 AWS 的兼容性.HOT 模板是 Heat ...
- 选择MariaDB的压缩数据引擎TokuDB
业务运用场景 数据基本不用update, 不频繁的范围查询 数据存储量较大(为以后准备) 选择占用磁盘较小的db 业务对数据库插入操作频繁,为避免影响其它业务,需要将直播业务的DB 独立出来,选择另外 ...
- NYOJ36 水池数目
水池数目 时间限制:3000 ms | 内存限制:65535 KB 难度:4 描述 南阳理工学院校园里有一些小河和一些湖泊,现在,我们把它们通一看成水池,假设有一张我们学校的某处的地图,这个地 ...