python实现并发获取html的几种方式
1.线程池
from concurrent.futures import ThreadPoolExecutor import requests from fake_useragent import UserAgent def task(url): res = requests.get(url, headers={"User-Agent": UserAgent().chrome}) print(f"{url}--{res}") url_list = ["http://www.baidu.com", "http://www.acfun.cn", "http://www.bilibili.com", "http://www.zhihu.com", "http://www.douban.com"] executor = ThreadPoolExecutor(max_workers=3) tasks = [executor.submit(task, url) for url in url_list] executor.shutdown(wait=True)
2.asyncio+aiohttp
import asyncio import aiohttp async def task(url): async with aiohttp.request("GET", url) as response: res = await response.text() print(res) url_list = ["http://www.baidu.com", "http://www.acfun.cn", "http://www.bilibili.com", "http://www.zhihu.com", "http://www.douban.com"] tasks = [task(url) for url in url_list] loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks))
3.gevent
from gevent import monkey monkey.patch_all() import gevent from fake_useragent import UserAgent import requests def task(url): res = requests.get(url, headers={"User-Agent": UserAgent().chrome}) res.encoding = res.apparent_encoding print(f"{url}--{res.text}") url_list = ["http://www.baidu.com", "http://www.acfun.cn", "http://www.bilibili.com", "http://www.zhihu.com", "http://www.douban.com"] gevent.joinall([gevent.spawn(task, url) for url in url_list])
4.tornado
from tornado.httpclient import AsyncHTTPClient from tornado.httpclient import HTTPRequest from tornado import ioloop from functools import partial from fake_useragent import UserAgent count = None def handler_response(response): global count count -= 1 if response.error: print("error") else: print(response.effective_url) if count == 0: ioloop.IOLoop.current().stop() def func(url_list): global count count = len(url_list) for url in url_list: client = AsyncHTTPClient() client.fetch(HTTPRequest(url, headers={"User-Agent": UserAgent().chrome}), callback=handler_response) url_list = ["http://www.baidu.com", "http://www.acfun.cn", "http://www.bilibili.com", "http://www.zhihu.com", "http://www.douban.com"] ioloop.IOLoop.current().run_sync(partial(func, url_list)) ioloop.IOLoop.current().start()
5. twisted
from twisted.internet import reactor # 事件循环(终止条件,所有的socket都已经移除) from twisted.internet import defer # defer.Deferred 特殊的socket对象(不发请求,手动移除) from twisted.web.client import getPage # 用于创建socket对象(下载完成,自动从事件循环中移除) from fake_useragent import UserAgent # 1. 利用getPage创建socket # 2. 将socket添加到事件循环 # 3. 开始事件循环(内部发送请求,并接受相应。当所有的socket请求完成之后,终止事件循环) @defer.inlineCallbacks # 添加到事件循环 def task(url): # 创建socket,注意url要转换成字节。headers中的"User-Agent"也要是字节 d = getPage(bytes(url, encoding="utf-8"), headers={b"User-Agent": UserAgent().chrome}) # 获取到的html页面会自动传到response函数的第一个参数里面 d.addCallback(response) yield d def response(content): print(str(content, encoding="utf-8")) def done(*args): reactor.stop() url_list = ["http://www.baidu.com", "http://www.acfun.cn", "http://www.bilibili.com", "http://www.zhihu.com", "http://www.douban.com"] defer_list = [] for url in url_list: t = task(url) defer_list.append(t) # 监听defer_list里面的任务是否执行完毕 d = defer.DeferredList(defer_list) #如果执行完毕,执行对应的回调函数 d.addBoth(done) # 启动事件循环 reactor.run()
python实现并发获取html的几种方式的更多相关文章
- 获取Type的三种方式
using System;using UnityEngine; public class Type_Test : MonoBehaviour{ private void Awake() { ...
- java动态获取WebService的两种方式(复杂参数类型)
java动态获取WebService的两种方式(复杂参数类型) 第一种: @Override public OrderSearchListRes searchOrderList(Order_Fligh ...
- AngularJS中获取数据源的几种方式
在AngularJS中,可以从$rootScope中获取数据源,也可以把获取数据的逻辑封装在service中,然后注入到app.run函数中,或者注入到controller中.本篇就来整理获取数据的几 ...
- java 获取时间戳的三种方式
java 获取时间戳的三种方式 CreationTime--2018年7月13日16点29分 Author:Marydon 1.实现方式 方式一:推荐使用 System.currentTimeMi ...
- 【Struts2】Struts2获取session的三种方式
1.Map<String,Object> map = ActionContext.getContext().getSession(); 2.HttpSession session = S ...
- js获取时间戳的三种方式
js获取时间戳的三种方式 CreateTime--2018年5月23日08:44:10 Author:Marydon // 方式一:推荐使用 var timestamp=new Date().ge ...
- Struts2(四.注册时检查用户名是否存在及Action获取数据的三种方式)
一.功能 1.用户注册页面 <%@ page language="java" contentType="text/html; charset=UTF-8" ...
- HTTP获取信息的四种方式
HTTP 从网络获取信息的四种方式 GET GET指代你在浏览器中输入网址,浏览网站时做的事.例如,我们使用 http://www.baidu.com 的时候,可以将GET想象成他说:"hi ...
- SpringMVC获取参数的几种方式
前言: 年末了,忙了一年了却发现系统的整理的东西很少,一些基础的东西都未做整理,这里就将它随便整理一下,增加一些印象,当然在网上看到一些好的资料也会整理下来以备后用.今天整理一下springMVC获取 ...
随机推荐
- 调用startActivityForResult后直接调用onActivityResult
人员都知道,可以经由过程应用 startActivityForResult() 和 onActivityResult() 办法来传递或接管参数. 然而在"轻听"项目中,还没比及被调 ...
- sprintf()函数使用异常
调试STM32F103,比如如下代码:使用springf函数,这个函数是把最后两个参数先格式化成字符串 ,输出到ERROR_STRING,如果他们合并的长度大于30会出现深情况? ] sprintf( ...
- Java线程的两种实现形式
一.创建线程的第一种方式:继承Thread类 class Demo extends Thread{ @Override public void run() { super.run(); for(int ...
- JAVA中的类
节选自:http://www.cnblogs.com/dolphin0520/p/3811445.html 1. 成员内部类是依附外部类而存在的,也就是说,如果要创建成员内部类的对象,前提是必须存在一 ...
- CCF-NOIP-2018 提高组(复赛) 模拟试题(一)
T1 帽子戏法 问题描述 小 Y 有一个\(n*n*n\)的"帽子立方体" ,即一个\(n\)层的立方体,每层的帽子都 可以排成\(n*n\)的矩阵. "帽子立方体&qu ...
- 剑指offer-替换空格02
题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. class Solution: ...
- Nginx下配置codeigniter框架
原来在winserver+Apache环境下工作良好的一个微信公众号后台迁移到阿里云(环境:Ubuntu 64位 | PHP5.4 | Nginx1.6)下却频出 404,403,只能访问CI rou ...
- Actiivity 生命周期
Actiivity 生命周期,如下图所示: onCreate onStart (onRestarted) onResume onPaused(to onResume(User navigates to ...
- jQuery制作table表格布局插件带有列左右拖动效果
压缩包:http://www.xwcms.net/js/bddm/99004.html
- 原始套接字--traceroute
traceroute, 也就是 trace route,跟踪路由.这个程序最早是Van Jacobson实现的.源码在网上可以找到,不过我还没有去找.是IP路由过程中对数据包TTL(Time to L ...