小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

人生苦短,我用 Python
前文传送门:
小白学 Python 爬虫(2):前置准备(一)基本类库的安装
小白学 Python 爬虫(3):前置准备(二)Linux基础入门
小白学 Python 爬虫(4):前置准备(三)Docker基础入门
小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装
小白学 Python 爬虫(10):Session 和 Cookies
小白学 Python 爬虫(11):urllib 基础使用(一)
小白学 Python 爬虫(12):urllib 基础使用(二)
小白学 Python 爬虫(13):urllib 基础使用(三)
小白学 Python 爬虫(14):urllib 基础使用(四)
小白学 Python 爬虫(15):urllib 基础使用(五)
小白学 Python 爬虫(16):urllib 实战之爬取妹子图
小白学 Python 爬虫(17):Requests 基础使用
小白学 Python 爬虫(18):Requests 进阶操作
小白学 Python 爬虫(21):解析库 Beautiful Soup(上)
小白学 Python 爬虫(22):解析库 Beautiful Soup(下)
小白学 Python 爬虫(23):解析库 pyquery 入门
小白学 Python 爬虫(26):为啥买不起上海二手房你都买不起
小白学 Python 爬虫(27):自动化测试框架 Selenium 从入门到放弃(上)
小白学 Python 爬虫(28):自动化测试框架 Selenium 从入门到放弃(下)
小白学 Python 爬虫(29):Selenium 获取某大型电商网站商品信息
小白学 Python 爬虫(31):自己构建一个简单的代理池
PS:原谅小编一件事儿,昨天公众号推送的前文传送门链接没搞对,导致所有连接都失效了,微信又对已经推送的文章有修改限制,只支持删改,不支持加链接,小编诚恳的给大家道个歉。
为什么需要异步请求库
按照惯例,先放官方链接:
官方文档:https://docs.aiohttp.org/en/stable/
可惜这个没有中文版的,浏览器自带的翻译软件凑合看吧,有看不懂的再看原文。
原因当然很简单,快啊~~~
啊呸,不对,是效率高。
这个效率高怎么定义呢?如果是爬取的接口或者页面没有前后的逻辑关系,举个栗子:必须要先从 a 页面获取某个数据才能拼出来 b 页面访问链接,这个就叫有前后逻辑关系。
我们很多情况下页面的爬取是没有前后逻辑关系的,使用同步请求库如: Requests 就只能等一个请求先出去,再回来才会发送下一个请求。
如果是换成异步请求库就不会有这个等待了,一个请求发出去,才不会管这个请求什么时间响应,直接下一个请求就接着发出去了,然后再是下下个请求。
当然,异步请求库也为我们提供了回调方法,不然我们都不知道什么时候请求有响应,什么时候会有我们想要的数据回来。
先看个简单的例子,我们先直观的感受下异步请求库到底能比同步请求库快多少。
这里使用的网站是度娘(其实本来想使用 Github 的,实在是小编使用的移动的宽带网络太xxx,循环打开十次 5 分钟都跑不完),无奈转换度娘,访问 100 次,因为 10 次太少了,看不出来差距。
Requests 版示例
示例代码如下:
import requests
from datetime import datetime
start = datetime.now()
for i in range(100):
print(requests.get('https://www.baidu.com/').text)
end = datetime.now()
print("request花费时间为:", end - start)
结果如下:
request花费时间为: 0:00:13.410708
其他的打印小编这里就不贴了,单纯的贴一下最后时间差的打印。
AioHttp 版示例
示例代码如下:
import aiohttp
import asyncio
from datetime import datetime
async def main():
async with aiohttp.ClientSession() as client:
html = await client.get('https://www.baidu.com/')
print(html)
loop = asyncio.get_event_loop()
tasks = []
for i in range(100):
task = loop.create_task(main())
tasks.append(task)
start = datetime.now()
loop.run_until_complete(main())
end = datetime.now()
print("aiohttp花费时间为:", end - start)
结果如下:
aiohttp花费时间为: 0:00:00.249995
各位同学,看到了没,这个访问速度天差地别啊,一个用了 13s 多,一个连 1s 都没到,这中间的差距小编已经不想算了,太大了。
不过访问速度这么快,访问有 ip 防御的网站,封的速度也挺快的,可能爬虫刚开始运行,茶杯子都没端起来就已经把 ip 封掉了。
基操
接下来我们简单的了解一下 AIOHTTP 的一些基本操作。
发请求
示例代码:
import aiohttp
import asyncio
async def aio_1():
async with aiohttp.ClientSession() as session:
async with session.get('https://www.baidu.com/') as resp:
print(resp.status)
print(await resp.text())
loop = asyncio.get_event_loop()
loop.run_until_complete(aio_1())
结果就不贴了,这里主要是给各位同学演示如何使用 AIOHTTP 发送请求。
这里,我们使用一个 ClientSession 作为被调用的 session 和一个 ClientResponse 对象作为响应结果。
一下内容为来自官方文档的提示:
注意:
不要为每个请求创建会话。每个应用程序很可能需要一个会话来执行所有请求。
更复杂的情况可能需要在每个站点上进行一次会话,例如,一个会话用于Github,另一个会话用于Facebook API。无论如何,为每个请求建立会话是一个非常糟糕的主意。
会话内部包含一个连接池。连接重用和保持活动状态(默认情况下均处于启用状态)可能会提高整体性能。
响应
先看个示例:
async def aio_2():
async with aiohttp.ClientSession() as session:
async with session.get('https://www.geekdigging.com/') as resp:
print(resp.status)
print(await resp.text())
loop = asyncio.get_event_loop()
loop.run_until_complete(aio_2())
AIOHTTP 为我们提供了自动解码的功能,
这里的示例访问小编的博客站,其中首页有大量的中文内容,如果解码不正确中文是不能正常显示的。结果小编就不贴了,解码正确。
当然,如果我们发现自动解码不正确的时候可以认为的设定解码类型,代码如下:
await resp.text(encoding='gb2312')
响应我们同样可以通过二进制字节流的方式来进行访问,代码如下:
print(await resp.read())
AIOHTTP 还为我们内置了一个 JSON 解码器,可以供我们直接处理 JSON 格式的响应数据,示例代码如下:
print(await resp.json())
超时
在前面我们介绍其他请求库的时候,都有遇到过超时的问题,一般而言,我们会为请求添加一个超时时间,那么在 AIOHTTP 中,超时时间的添加如下示例代码:
async def aio_3():
timeout = aiohttp.ClientTimeout(total=60)
async with aiohttp.ClientSession(timeout = timeout) as session:
async with session.get('https://www.geekdigging.com/', timeout = timeout) as resp:
print(resp.status)
loop = asyncio.get_event_loop()
loop.run_until_complete(aio_3())
如果我们不设置超时时间 AIOHTTP 为我们默认设置的超时时间是 5 分钟,如果我们设置了超时时间,则以我们设置的为准,超时时间的设置可以在两个地方设置,小编已经在示例中都举例出来了。
我们可以直接在创建 ClientSession 的时候直接设置超时时间,这时,整个超时时间是在当前的会话中都有效的,如果在后面的调用中如 ClientSession.get(): 中重新设置超时时间,则会覆盖我们在创建 ClientSession 设置的超时时间。
而 ClientTimeout 则还有很多种属性可以进行设置,列表如下:
- total:整个操作时间包括连接建立,请求发送和响应读取。
- connect:该时间包括建立新连接或在超过池连接限制时等待池中的空闲连接的连接。
- sock_connect:连接到对等点以进行新连接的超时,不是从池中给出的。
- sock_read:从对等体读取新数据部分之间的时间段内允许的最大超时。
默认超时如下:
aiohttp.ClientTimeout(total=5*60, connect=None,
sock_connect=None, sock_read=None)
示例代码
本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上,方便大家取用。
小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门的更多相关文章
- 小白学 Python 爬虫(11):urllib 基础使用(一)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(13):urllib 基础使用(三)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(17):Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(30):代理基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(12):urllib 基础使用(二)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(14):urllib 基础使用(四)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(8):网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(15):urllib 基础使用(五)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(7):HTTP 基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
随机推荐
- 8-2udp和tcp网络编程以及粘包和解决粘包的方法
一 tcp网络编程 server 端 import socket sk=socket.socket() #实例化一个对象 sk.setsockopt(socket.SOL_SOCKET,socket ...
- 阿里云Kubernetes服务上使用Tekton完成应用发布初体验
Tekton 是一个功能强大且灵活的 Kubernetes 原生开源框架,用于创建持续集成和交付(CI/CD)系统.通过抽象底层实现细节,用户可以跨多云平台和本地系统进行构建.测试和部署. 本文是基于 ...
- UITableView 刷新问题
遇到的问题: 在程序里异步请求服务器后回调函数中处理数据和界面数据的刷新,但是更新UITableView的时候总是很慢才更新完,打印TableView的代理方法也都很快打印. 解决办法就是: [sel ...
- PHP怎么调用其他类的方法
2个PHP,这个PHP中的类调用另一个PHP中的类,如何调用.Java中是import ,php中是什么?还是用其他什么方法? 1.引用类:比如类名为product,则:include('...路径/ ...
- Android教程 -04 启动其它Activity,静态工厂设计模式传递数据
视频建议采用超清模式观看, 欢迎点击订阅我的优酷 意图 Intent 一个应用程序肯定不只有一个界面,如何切换到其它界面,只时候就需要启动其它的Activity.启动Activity有多种方式.我在这 ...
- MySQL基础内容
数据类型 菜鸟教程(见最下方网友整理) : https://www.runoob.com/mysql/mysql-data-types.html 其他: 1字节(byte)=8位(bit),所以dou ...
- Python--day47--mysql分页性能相关方案
提高分页性能: 分页的时候,如果是正常的数据全局扫描,分页越大的时候花费的时间越长. 这时候要提高效率的话就不能全局扫描,如下面的例子,扫描索引且从最大或最小页开始扫描.
- tf.nn.embedding_lookup()的用法
函数: tf.nn.embedding_lookup( params, ids, partition_strategy='mod', name=None, validate_indices=True, ...
- Python--day44--navicat使用(知道怎么用就好,要用终端操作,用这个会被人鄙视)
- H3C 基于ACL的包过滤技术