小白学 Python 爬虫（32）：异步请求库 AIOHTTP 基础入门

import requests

from datetime import datetime

start = datetime.now()

for i in range(100):

    print(requests.get('https://www.baidu.com/').text)

end = datetime.now()

print("request花费时间为：", end - start)

结果如下：

request花费时间为： 0:00:13.410708

其他的打印小编这里就不贴了，单纯的贴一下最后时间差的打印。

AioHttp 版示例

示例代码如下：

import aiohttp

import asyncio

from datetime import datetime

async def main():

    async with aiohttp.ClientSession() as client:

        html = await client.get('https://www.baidu.com/')

        print(html)

loop = asyncio.get_event_loop()

tasks = []

for i in range(100):

    task = loop.create_task(main())

    tasks.append(task)

start = datetime.now()

loop.run_until_complete(main())

end = datetime.now()

print("aiohttp花费时间为：", end - start)

结果如下：

aiohttp花费时间为： 0:00:00.249995

各位同学，看到了没，这个访问速度天差地别啊，一个用了 13s 多，一个连 1s 都没到，这中间的差距小编已经不想算了，太大了。

不过访问速度这么快，访问有 ip 防御的网站，封的速度也挺快的，可能爬虫刚开始运行，茶杯子都没端起来就已经把 ip 封掉了。

基操

接下来我们简单的了解一下 AIOHTTP 的一些基本操作。

发请求

示例代码：

import aiohttp

import asyncio

async def aio_1():

    async with aiohttp.ClientSession() as session:

        async with session.get('https://www.baidu.com/') as resp:

            print(resp.status)

            print(await resp.text())

loop = asyncio.get_event_loop()

loop.run_until_complete(aio_1())

结果就不贴了，这里主要是给各位同学演示如何使用 AIOHTTP 发送请求。

这里，我们使用一个 ClientSession 作为被调用的 session 和一个 ClientResponse 对象作为响应结果。

一下内容为来自官方文档的提示：

注意：

不要为每个请求创建会话。每个应用程序很可能需要一个会话来执行所有请求。

更复杂的情况可能需要在每个站点上进行一次会话，例如，一个会话用于Github，另一个会话用于Facebook API。无论如何，为每个请求建立会话是一个非常糟糕的主意。

会话内部包含一个连接池。连接重用和保持活动状态（默认情况下均处于启用状态）可能会提高整体性能。

响应

先看个示例：

async def aio_2():

    async with aiohttp.ClientSession() as session:

        async with session.get('https://www.geekdigging.com/') as resp:

            print(resp.status)

            print(await resp.text())

loop = asyncio.get_event_loop()

loop.run_until_complete(aio_2())

AIOHTTP 为我们提供了自动解码的功能，

这里的示例访问小编的博客站，其中首页有大量的中文内容，如果解码不正确中文是不能正常显示的。结果小编就不贴了，解码正确。

当然，如果我们发现自动解码不正确的时候可以认为的设定解码类型，代码如下：

await resp.text(encoding='gb2312')

响应我们同样可以通过二进制字节流的方式来进行访问，代码如下：

print(await resp.read())

AIOHTTP 还为我们内置了一个 JSON 解码器，可以供我们直接处理 JSON 格式的响应数据，示例代码如下：

print(await resp.json())

超时

在前面我们介绍其他请求库的时候，都有遇到过超时的问题，一般而言，我们会为请求添加一个超时时间，那么在 AIOHTTP 中，超时时间的添加如下示例代码：

async def aio_3():

    timeout = aiohttp.ClientTimeout(total=60)

    async with aiohttp.ClientSession(timeout = timeout) as session:

        async with session.get('https://www.geekdigging.com/', timeout = timeout) as resp:

            print(resp.status)

loop = asyncio.get_event_loop()

loop.run_until_complete(aio_3())

如果我们不设置超时时间 AIOHTTP 为我们默认设置的超时时间是 5 分钟，如果我们设置了超时时间，则以我们设置的为准，超时时间的设置可以在两个地方设置，小编已经在示例中都举例出来了。

我们可以直接在创建 ClientSession 的时候直接设置超时时间，这时，整个超时时间是在当前的会话中都有效的，如果在后面的调用中如 ClientSession.get()： 中重新设置超时时间，则会覆盖我们在创建 ClientSession 设置的超时时间。

而 ClientTimeout 则还有很多种属性可以进行设置，列表如下：

total：整个操作时间包括连接建立，请求发送和响应读取。
connect：该时间包括建立新连接或在超过池连接限制时等待池中的空闲连接的连接。
sock_connect：连接到对等点以进行新连接的超时，不是从池中给出的。
sock_read：从对等体读取新数据部分之间的时间段内允许的最大超时。

默认超时如下：

aiohttp.ClientTimeout(total=5*60, connect=None,

                      sock_connect=None, sock_read=None)

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee