tornado实现高并发爬虫

from pyquery import PyQuery as pq

from tornado import ioloop, gen, httpclient, queues

from urllib.parse import urljoin

base_url = "http://www.baidu.com"

concurrency = 8

async def get_url_links(url):

    response = await httpclient.AsyncHTTPClient().fetch(url)

    html = response.body.decode("utf-8")

    p = pq(html)

    links = []

    for tag_a in p("a").items():

        links.append(urljoin(base_url, tag_a.attr("href")))

    return links

async def main():

    seen_set = set()

    q = queues.Queue()

    async def fetch_url(current_url):

        if current_url in seen_set:

            return

        print(f"获取：{current_url}")

        seen_set.add(current_url)

        next_urls = await get_url_links(current_url)

        for next_url in next_urls:

            if next_url.startswith(base_url):

                await q.put(next_url)

    async def worker():

        async for url in q:

            if url is None:

                return

            try:

                await fetch_url(url)

            except Exception as e:

                print(f"exception:{e}")

            finally:

                # 计数器，每进入一个就加1，所以我们调用完了之后，要减去1

                q.task_done()

    # 放入初始url到队列

    await q.put(base_url)

    # 启动协程，同时开启三个消费者

    workers = gen.multi([worker() for _ in range(3)])

    # 会阻塞，直到队列里面没有数据为止

    await q.join()

    for _ in range(concurrency):

        await q.put(None)

    # 等待所有协程执行完毕

    await workers

if __name__ == '__main__':

    ioloop.IOLoop.current().run_sync(main)

"""

获取：http://www.baidu.com

获取：http://www.baidu.com/gaoji/preferences.html

获取：http://www.baidu.com/

获取：http://www.baidu.com/more/

获取：http://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&word=

获取：http://www.baidu.com/cache/sethelp/help.html

获取：http://www.baidu.com/duty/

获取：http://www.baidu.com/search/jiqiao.html

获取：http://www.baidu.com#iec

获取：http://www.baidu.com#circle

获取：http://www.baidu.com#aoyouc

获取：http://www.baidu.com#sougouc

获取：http://www.baidu.com#qqtc

获取：http://www.baidu.com#ttc

获取：http://www.baidu.com#ffc

获取：http://www.baidu.com#chromec

获取：http://www.baidu.com#jishu360c

获取：http://www.baidu.com#world_jishuc

获取：http://www.baidu.com#operac

获取：http://www.baidu.com#worldc

获取：http://www.baidu.com#safaric

获取：http://www.baidu.com#greenc

获取：http://www.baidu.com#krc

获取：http://www.baidu.com#bdbrowserc

获取：http://www.baidu.com/duty/index.html

获取：http://www.baidu.com/copyright.html

获取：http://www.baidu.com/mianze-shengming.html

获取：http://www.baidu.com/right.html

获取：http://www.baidu.com/yinsiquan-policy.html

获取：http://www.baidu.com/yinsiquan-sub.html

获取：http://www.baidu.com/baozhang.html

获取：http://www.baidu.com/index

获取：http://www.baidu.com/search?keywords=%E7%99%BE%E5%BA%A6%E5%B8%90%E5%8F%B7%E8%A2%AB%E5%B0%81%E7%A6%81

获取：http://www.baidu.com/search?keywords=%E5%A6%82%E4%BD%95%E4%B8%BE%E6%8A%A5%E7%BD%91%E7%AB%99

获取：http://www.baidu.com/search?keywords=%E6%8A%95%E8%AF%89%E4%BE%B5%E6%9D%83%E4%BF%A1%E6%81%AF

获取：http://www.baidu.com/search?keywords=%E7%99%BE%E5%BA%A6%E5%B8%90%E5%8F%B7%E8%A2%AB%E7%9B%97

获取：http://www.baidu.com/search?keywords=%E5%B8%90%E5%8F%B7%E7%94%B3%E8%AF%89%E6%9C%AA%E9%80%9A%E8%BF%87

获取：http://www.baidu.com/search?keywords=%E8%B4%B4%E5%90%A7%E8%B4%B4%E5%AD%90%E8%A2%AB%E5%88%A0

获取：http://www.baidu.com/search?keywords=%E5%88%A0%E9%99%A4%2F%E6%9B%B4%E6%96%B0%E5%BF%AB%E7%85%A7

获取：http://www.baidu.com/zhifu

获取：http://www.baidu.com/jubao

获取：http://www.baidu.com/statement

获取：http://www.baidu.com/personalinformation

获取：http://www.baidu.com/more/index.html

获取：http://www.baidu.com/search/jubao.html

"""

tornado实现高并发爬虫的更多相关文章

1.tornado实现高并发爬虫
from pyquery import PyQuery as pq from tornado import ioloop, gen, httpclient, queues from urllib.pa ...
tornado解决高并发的初步认识牵扯出的一些问题
#!/bin/env python # -*- coding:utf-8 -*- import tornado.httpserver import tornado.ioloop import torn ...
Python Tornado搭建高并发Restful API接口服务
Tornado 和现在的主流 Web 服务器框架(包括大多数 Python 的框架)有着明显的区别:它是非阻塞式服务器,而且速度相当快能实现高并发.得利于其非阻塞的方式和对epoll的运用,Torn ...
Surfer 高并发双核无头浏览器（Golang语言）
Surfer A high level concurrency downloader. surfer是一款Go语言编写的高并发爬虫下载器,拥有surf与phantom两种下载内核. 支持固定Use ...
tornado 采用 epoll 代理构建高并发网络模型
1 阻塞和非阻塞对于阻塞和非阻塞,网上有一个很形象的比喻,就是说好比你在等快递,阻塞模式就是快递如果不到,你就不能做其他事情.非阻塞模式就是在这段时间里面,你可以做其他事情,比如上网.打游戏.睡觉 ...
在Centos下对高并发web框架Tornado的性能进行测试
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_89 在之前的一篇文章中,我们在1g1核的惨淡硬件环境下,对 uwsgi + django 和 gunicorn+ django 的 ...
协程--gevent模块(单线程高并发)
先恶补一下知识点,上节回顾上下文切换:当CPU从执行一个线程切换到执行另外一个线程的时候,它需要先存储当前线程的本地的数据,程序指针等,然后载入另一个线程的本地数据,程序指针等,最后才开始执行.这种 ...
nginx应用总结（2）--突破高并发的性能优化
在日常的运维工作中,经常会用到nginx服务,也时常会碰到nginx因高并发导致的性能瓶颈问题.今天这里简单梳理下nginx性能优化的配置(仅仅依据本人的实战经验而述,如有不妥,敬请指出~) 一.这里 ...
PHP秒杀系统-高并发高性能的极致挑战
慕课网实战教程后端:1.java c++算法与数据结构2.java Spring Boot带前后端渐进式开发企业级博客系统3.java Spring Boot企业微信点餐系统4.java Sprin ...

随机推荐

View的事件机制
为了更好的研究View的事件转发,我们自定以一个MyButton继承Button,然后把跟事件传播有关的方法进行复写,然后添加上日志. import android.content.Context; ...
vue.js 三种方式安装
Vue.js(读音 /vjuː/, 类似于 view)是一个构建数据驱动的 web 界面的渐进式框架.Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件.它不仅易于上手 ...
RxJava2实战---第六章条件操作符和布尔操作符
RxJava2实战---第六章条件操作符和布尔操作符 RxJava的条件操作符主要包括以下几个: amb():给定多个Observable,只让第一个发射数据的Obsrvable发射全部数据. de ...
Centos7 安装 Amazon Corretto 8
yum install dejavu-sans-mono-fonts dejavu-serif-fonts jpackage-utils wget https://d3pxv6yz143wms.clo ...
网络分析：WireShark
安装 WireShark 官网过滤器类别显示过滤器模式捕获过滤器模式逻辑表达式 and:&& or:|| 成组:() 过滤实例仅监听某域名 http.host == &qu ...
Django auth 用户验证
## Django本身内建这样的功能,admin管理页面就使用了这样的验证机制,admin管理页面就有Groups和Users选项 ## 需要在models.py中导入 from django.con ...
Golang－ import 导入包的几种方式：点，别名与下划线
包的导入语法在写Go代码的时候经常用到import这个命令用来导入包文件,看到的方式参考如下: import( "fmt" ) 然后在代码里面可以通过如下的方式调用 fmt.Pr ...
@Validated和@Valid校验参数、级联属性、List
@Validated和@Valid的区别在Controller中校验方法参数时,使用@Valid和@Validated并无特殊差异(若不需要分组校验的话): @Valid:标准JSR-303规范的标 ...
elastic全文检索框架
什么是ElasticSearch? 1.Elasticsearch是一个基于Lucene的搜索引擎.它提供了具有HTTPWeb界面和无架构JSON文档的分布式,多租户能力的全文搜索引擎.Elastic ...
进程，多进程，进程与程序的区别，程序运行的三种状态，multiprocessing模块中的Process功能，和join函数,和其他属性，僵尸与孤儿进程
1.进程什么是进程: 一个正在被运行的程序就称之为进程,是程序具体执行的过程,是一种抽象概念,进程来自操作系统 2.多进程多个正在运行的程序在python中实现多线程的方法 from mult ...

tornado实现高并发爬虫

tornado实现高并发爬虫的更多相关文章

随机推荐

热门专题