基于tornado的爬虫并发问题

tornado中的coroutine是python中真正意义上的协程，与python3中的asyncio几乎是完全一样的，而且两者之间的future是可以相互转换的，tornado中有与asyncio相兼容的接口。
下面是利用tornado中的coroutine进行并发抓取的代码：

HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9',

   'Accept-Language': 'zh-CN,zh;q=0.8',

   'Accept-Encoding': 'gzip, deflate',}

URLS = ['http://www.cnblogs.com/moodlxs/p/3248890.html',

        'https://www.zhihu.com/topic/19804387/newest',

        'http://blog.csdn.net/yueguanghaidao/article/details/24281751',

        'https://my.oschina.net/visualgui823/blog/36987',

        'http://blog.chinaunix.net/uid-9162199-id-4738168.html',

        'http://www.tuicool.com/articles/u67Bz26',

        'http://rfyiamcool.blog.51cto.com/1030776/1538367/',

        'http://itindex.net/detail/26512-flask-tornado-gevent']

from tornado.gen import coroutine

from tornado.ioloop import IOLoop

from tornado.httpclient import AsyncHTTPClient, HTTPError

from tornado.httpclient import HTTPRequest

#urls与前面相同

class MyClass(object):

    def __init__(self):

        #AsyncHTTPClient.configure("tornado.curl_httpclient.CurlAsyncHTTPClient")

        self.http = AsyncHTTPClient()

    @coroutine

    def get(self, url):

        #tornado会自动在请求首部带上host首部

        request = HTTPRequest(url=url,

                            method='GET',

                            headers=HEADERS,

                            connect_timeout=2.0,

                            request_timeout=2.0,

                            follow_redirects=False,

                            max_redirects=False,

                            user_agent="Mozilla/5.0+(Windows+NT+6.2;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/45.0.2454.101+Safari/537.36",)

        yield self.http.fetch(request, callback=self.find, raise_error=False)

    def find(self, response):

        if response.error:

            print(response.error)

        print(response.code, response.effective_url, response.request_time)

class Download(object):

    def __init__(self):

        self.a = MyClass()

        self.urls = URLS

    @coroutine

    def d(self):

        print(u'基于tornado的并发抓取')

        t1 = time.time()

        yield [self.a.get(url) for url in self.urls]

        t = time.time() - t1

        print(t)

if __name__ == '__main__':

    dd = Download()

    loop = IOLoop.current()

    loop.run_sync(dd.d)

利用coroutine编写并发略显复杂，但这是推荐的写法，如果你使用的是python3，强烈建议你使用coroutine来编写并发抓取。

下面是测试结果：

可以看到总共花费了0.92456秒，而这所花费的时间恰恰就是最后一个url抓取所需要的时间，tornado中自带了查看每个请求的相应时间。我们可以从图中看到，最后一个url抓取总共花了0.912秒，相较于其他时间大大的增加，这也是导致我们消耗时间过长的原因。那可以推断出，前面的并发抓取，也在这个url上花费了较多的时间。

转载：https://blog.csdn.net/hjhmpl123/article/details/53378068

基于tornado的爬虫并发问题的更多相关文章

基于tornado的文件上传demo
这里,web框架是tornado的4.0版本,文件上传组件,是用的bootstrap-fileinput. 这个小demo,是给合作伙伴提供的,模拟APP上摄像头拍照,上传给后台服务进行图像识别用,识 ...
基于golang分布式爬虫系统的架构体系v1.0
基于golang分布式爬虫系统的架构体系v1.0 一.什么是分布式系统分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统.简单来说就是一群独立计算机 ...
基于RTKLIB构建高并发通信测试工具
1. RTKLIB基础动态库生成 RTKLIB是全球导航卫星系统GNSS(global navigation satellite system)的标准&精密定位开源程序包,由日本东京海洋大学的 ...
基于tornado实现web camera
基于tornado实现web camera 近期在学习python.找了一个框架学习,我选择的是tornado.由于其不仅仅是一个web开发框架,其还是一个server,异步事件库,一举多得. 我一直 ...
基于socket 实现单线程并发
基于socket 实现单线程并发: 基于协程实现内IO的快速切换,我们必须提前导入from gevent import monkey;monkey pacth_all() 以为 gevent spaw ...
【redis】基于redis实现分布式并发锁
基于redis实现分布式并发锁(注解实现) 说明前提, 应用服务是分布式或多服务, 而这些"多"有共同的"redis"; (2017-12-04) 笑哭, 写 ...
1.tornado实现高并发爬虫
from pyquery import PyQuery as pq from tornado import ioloop, gen, httpclient, queues from urllib.pa ...
tornado实现高并发爬虫
from pyquery import PyQuery as pq from tornado import ioloop, gen, httpclient, queues from urllib.pa ...
AssassinGo：基于Go的高并发可拓展式Web渗透框架
转载自FreeBuf.COM AssassinGo是一款使用Golang开发,集成了信息收集.基础攻击探测.Google-Hacking域名搜索和PoC批量检测等功能的Web渗透框架,并且有着基于Vu ...

随机推荐

C++ 第六课：C/C++关键字及其用法
asm 插入一个汇编指令. auto 声明一个本地变量. bool 声明一个布尔型变量. break 结束一个循环. case 一个switch语句的一部分. catch 处理 thrown 产生的异 ...
Mahout 协同过滤 itemBase RecommenderJob源码分析
来自:http://blog.csdn.net/heyutao007/article/details/8612906 Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.Ite ...
tcmalloc asan
http://blog.csdn.net/jinzhuojun/article/details/46659155 http://blog.csdn.net/hanlizhong85/article/d ...
hdu 4336 概率dp + 状压
hdu 4336 小吃包装袋里面有随机赠送一些有趣的卡片,如今你想收集齐 N 张卡片.每张卡片在食品包装袋里出现的概率是p[i] ( Σp[i] <= 1 ), 问你收集全部卡片所需购买的食品数 ...
利用sqlserver sa更改系统密码
--允许修改高级属性 sp_configure go reconfigure go --启用扩展存储命令 sp_configure go reconfigure go --系统添加一个windows用 ...
java 文件复制
java实现文件复制 CreateTime--2017年9月7日15:04:48 Author:Marydon 1.需求根据原文件复制一份到指定位置 2.代码实现需要导入: import ja ...
ibatis中#和$如何当作字符使用？
1.情景展示在plsql中,可以正常执行但是在ibatis的sqlMap文件中,报错信息如下: 2.原因分析 ibatis中 #.$ 是功能符号,用来取值的,当sql中出现这类字符时便会造成冲 ...
[Android]Recovery调用外部Shell脚本，Shell脚本使用ui_print方法
busybox_bin=/sbin/busybox # 获取PIPE get_outfd(){ | $busybox_bin grep -q 'pipe'; then else local all_p ...
RSA密钥生成、加密解密、签名验签
RSA 非对称加密公钥加密,私钥解密私钥签名,公钥验签下面是生成随机密钥对: //随机生成密钥对 KeyPairGenerator keyPairGen = null; try { keyPair ...
有限状态机(FSM)的Java 学习FSM
本文从简单的例子入手,逐步演变成非常复杂的程序. 在简明状态模式(5.8)中,状态之间的变换由外界控制,或者说,多种状态是分割的.无关的.状态模式最有趣的地方正是讨论其状态的变迁. 1.引子空调( ...

基于tornado的爬虫并发问题

基于tornado的爬虫并发问题的更多相关文章

随机推荐

热门专题