python:利用asyncio进行快速抓取

web数据抓取是一个经常在python的讨论中出现的主题。有很多方法可以用来进行web数据抓取，然而其中好像并没有一个最好的办法。有一些如scrapy这样十分成熟的框架，更多的则是像mechanize这样的轻量级库。DIY自己的解决方案同样十分流行：你可以使用requests、beautifulsoup或者pyquery来实现。

方法如此多样的原因在于，数据“抓取”实际上包括很多问题：你不需要使用相同的工具从成千上万的页面中抓取数据，同时使一些Web工作流自动化（例如填一些表单然后取回数据）。我喜欢DIY的原因在于其灵活性，但是却不适合用来做大量数据的抓取，因为需要请求同步，所以大量的请求意味着你不得不等待很长时间。

在本文中，我将会为你展示一个基于新的异步库（aiohttp）的请求的代替品。我使用它写了一些速度的确很快的小数据抓取器，下面我将会为你演示是如何做到的。

asyncio的基本概念
asyncio是在python3.4中被引进的异步IO库。你也可以通过python3.3的pypi来安装它。它相当的复杂，而且我不会介绍太多的细节。相反，我将会解释你需要知道些什么，以利用它来写异步的代码。

简而言之，有两件事情你需要知道：协同程序和事件循环。协同程序像是方法，但是它们可以在代码中的特定点暂停和继续。当在等待一个IO（比如一个
HTTP请求），同时执行另一个请求的时候，可以用来暂停一个协同程序。我们使用关键字yield
from来设定一个状态，表明我们需要一个协同程序的返回值。而事件循环则被用来安排协同程序的执行。

关于asyncio还有很多很多，但是以上是我们到目前为止需要知道的。可能你还有些不清楚，那么让我们来看一些代码吧。

aiohttp
aiohttp是一个利用asyncio的库，它的API看起来很像请求的API。到目前为止，相关文档还不健全。但是这里有一些非常有用的例子。我们将会演示它的基本用法。

首先，我们会定义一个协同程序用来获取页面，并打印出来。我们使用
asyncio.coroutine将一个方法装饰成一个协同程序。aiohttp.request是一个协同程序，所以它是一个可读方法，我们需要使用
yield from来调用它们。除了这些，下面的代码看起来相当直观：

@asyncio.coroutine

def print_page(url):

response = yield from aiohttp.request('GET', url)

body = yield from response.read_and_close(decode=True)

print(body)

如你所见，我们可以使用yield
from从另一个协同程序中调用一个协同程序。为了从同步代码中调用一个协同程序，我们需要一个事件循环。我们可以通过
asyncio.get_event_loop()得到一个标准的事件循环，之后使用它的run_until_complete()方法来运行协同程序。
所以，为了使之前的协同程序运行，我们只需要做下面的步骤：

1 2	`loop` `=` `asyncio.get_event_loop()` `loop.run_until_complete(print_page('http://example.com'))`

一个有用的方法是asyncio.wait，通过它可以获取一个协同程序的列表，同时返回一个将它们全包括在内的单独的协同程序，所以我们可以这样写：

1 2	`loop.run_until_complete(asyncio.wait([print_page('http://example.com/foo'),` `print_page('http://example.com/bar')]))`

另一个是asyncio.as_completed，通过它可以获取一个协同程序的列表，同时返回一个按完成顺序生成协同程序的迭代器，因此当你用它迭代时，会尽快得到每个可用的结果。

数据抓取
现在我们知道了如何做异步HTTP请求，因此我们可以来写一个数据抓取器了。我们仅仅还需要一些工具来读取html页面，我使用了beautifulsoup来做这个事情，其余的像 pyquery或lxml也可以实现。

在这个例子中，我们会写一个小数据抓取器来从海盗湾抓取一些linux distributions的torrent 链路（海盗湾（英语：The
Pirate Bay，缩写：TPB）是一个专门存储、分类及搜索Bittorrent种子文件的网站，并自称“世界最大的BitTorrent
tracker（BT种子服务器）”，提供的BT种子除了有自由版权的收集外，也有不少被著作人声称拥有版权的音频、视频、应用软件与电子游戏等，为网络
分享与下载的重要网站之一–译者注来自维基百科）

首先，需要一个辅助协同程序来获取请求：

@asyncio.coroutine

def get(*args, **kwargs):

response = yield from aiohttp.request('GET', *args, **kwargs)

return (yield from response.read_and_close(decode=True))

解析部分。本文并非介绍beautifulsoup的，所以这部分我会简写：我们获取了这个页面的第一个磁链。

def first_magnet(page):

soup = bs4.BeautifulSoup(page)

a = soup.find('a', title='Download this torrent using magnet')

return a['href']

在这个协同程序中，url的结果通过种子的数量进行排序，所以排名第一的结果实际上是种子最多的：

@asyncio.coroutine

def print_magnet(query):

url = 'http://thepiratebay.se/search/{}/0/7/0'.format(query)

page = yield from get(url, compress=True)

magnet = first_magnet(page)

print('{}: {}'.format(query, magnet))

最后，用下面的代码来调用以上所有的方法。

distros = ['archlinux', 'ubuntu', 'debian']

loop = asyncio.get_event_loop()

f = asyncio.wait([print_magnet(d) for d in distros])

loop.run_until_complete(f)

结论
好了，现在我们来到了这个部分。你有了一个异步工作的小抓取器。这意味着多个页面可以同时被下载，所以这个例子要比使用请求的相同代码快3倍。现在你应该可以用相同的方法写出你自己的抓取器了。

你可以在这里找到生成的代码，也包括一些额外的建议。

你一旦熟悉了这一切，我建议你看一看asyncio的文档和aiohttp的范例，这些都能告诉你 asyncio拥有怎样的潜力。

这种方法（事实上是所有手动的方法）的一个局限在于，没有一个独立的库可以用来处理表单。机械化的方法拥有很多辅助工具，这使得提交表单变得十分简
单，但是如果你不使用它们，你将不得不自己去处理这些事情。这可能会导致一些bug的出现，所以同时我可能会写一个这样的库（不过目前为止无需为此担
心）。

额外的建议：不要敲打服务器
同时做3个请求很酷，但是同时做5000个就不那么好玩了。如果你打算同时做太多的请求，链接有可能会断掉。你甚至有可能会被禁止链接网络。

为了避免这些，你可以使用semaphore。这是一个可以被用来限制同时工作的协同程序数量的同步工具。我们只需要在建立循环之前创建一个semaphore ，同时把我们希望允许的同时请求的数量作为参数传给它既可：

1	`sem = asyncio.Semaphore(5)`

然后，我们只需要将下面

1	`page = yield from` `get(url, compress=True)`

替换成被semaphore 保护的同样的东西。

1 2	`with` `(yield from sem):` `page = yield from` `get(url, compress=True)`

这就可以保证同时最多有5个请求会被处理。

额外建议：进度条
这个东东是免费的哦：tqdm是一个用来生成进度条的优秀的库。这个协同程序就像asyncio.wait一样工作，不过会显示一个代表完成度的进度条。

@asyncio.coroutine

def wait_with_progress(coros):

for f in tqdm.tqdm(asyncio.as_completed(coros), total=len(coros)):

yield from f

python:利用asyncio进行快速抓取的更多相关文章

利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
(转)利用Beautiful Soup去抓取p标签下class=jstest的内容
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
python爬虫beta版之抓取知乎单页面回答（low 逼版）
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品 ...
PHP快速抓取快递信息
<?php header("Content-type:text/html;charset=utf-8"); /** * Express.class.php 快递查询类 * @ ...
Android利用tcpdump和wireshark抓取网络数据包
Android利用tcpdump和wireshark抓取网络数据包主要介绍如何利用tcpdump抓取andorid手机上网络数据请求,利用Wireshark可以清晰的查看到网络请求的各个过程包括三次 ...
Jumony快速抓取网页
Jumony快速抓取网页 --- Jumony使用笔记--icode 作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.c ...

随机推荐

linux网络编程涉及的函数
常用的网络命令: netstat 命令netstat是用来显示网络的连接,路由表和接口统计等网络的信息. netstat有许多的选项我们常用的选项是-an用来显示详细的网络状态.至于其它选项我们使用帮 ...
Ubuntu Git安装
Git是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目.通过使用git工具,我们可以实现团队间合作开发统一管理,可以从远程仓库中提取代码,也可以把代码上传到远程仓库,从而实现 ...
Problem B: Excuses, Excuses!
Description Judge Ito is having a problem with people subpoenaed for jury duty giving rather lame ex ...
servlet三种实现方式之二继承GenericServlet开发
servlet有三种实现方式: 1.实现servlet接口 2.继承GenericServlet 3.通过继承HttpServlet开发servlet 第二种示例代码如下(已去掉包名): //这是第二 ...
jbpmAPI-8
8.1. Process Instance State jBPM允许某些信息的持久性存储.本章描述了这些不同类型的持久性,以及如何配置它们.存储的信息的一个例子是运行时状态的过程.存储过程运行时状态是 ...
JavaScript基础知识----零基础js入门练习题
1,什么是Javascript? 答:Javascipt是一种脚本语言,由web浏览器进行解释和执行. 2,JavaScript是由那几个部分组成? 答:主要分为以下三种: ECMASc ...
maven安装scala插件
默认情况maven不支持scala 所以需要安装maven-scala插件更新地址:http://alchim31.free.fr/m2e-scala/update-site/ (m2eclipse ...
用CSS样式画横线和竖线的方法
今天在做网页的时候,需要用到CSS画横线,虽然比较简单,但也出了一些小问题,拿来做个备忘. 方法一:用DIV,代码如下:(推荐此方法) <div style="width:80 ...
将默认首页设置成index.do的方法
变态欺骗法,今天csdn一个前辈的,学习了,公司服务器是weblogic的,也可以欺骗. 但是我又非常迫切.非常盼望.非常渴望使用index.do做首页,怎么办? Tomcat中用一段注释: When ...
字符串模式匹配KMP算法
一篇不错的博客:http://www.cnblogs.com/dolphin0520/archive/2011/08/24/2151846.html KMP字符串模式匹配通俗点说就是一种在一个字符串中 ...

python:利用asyncio进行快速抓取

python:利用asyncio进行快速抓取的更多相关文章

随机推荐

热门专题