使用sanic框架实现分布式爬虫

bee_server.py

from sanic import Sanic

from sanic import  response

from urlpool import  UrlPool

#初始化urlpool,很久需要进行修改

urlpool = UrlPool(__file__)

#初始化url

urlpool.add('https://news.sina.com.cn/')

app = Sanic(__name__)

@app.listener("after_server_stop")

async def cache_urlpool(app,loop):

    global urlpool

    print("caching urlpool after_server_stop")

    del urlpool

    print("bye!")

@app.route("/task")

async def task_get(request):

    count = request.args.get("count",10)

    try:

        count = int(count)

    except:

        count = 10

    urls = urlpool.pop(count)

    return response.json(urls)

@app.route("/task",methods=["POST",])

async def task_post(requrst):

    result = requrst.json()

    urlpool.set_status(result['url'],result['status'])

    if result['url_real'] != result['url']:

        urlpool.set_status(result["url_real"],result["status"])

    if result["newurls"]:

        print("receive URLs:",len(result["newurls"]))

        for url in result["newurls"]:

            urlpool.add(url)

    return response.text("ok")

if __name__ == '__main__':

    app.run(

        host='127.0.0.1',

        port = 8080,

        debug=False,

        access_log=False,

        workers=1

    )

bee_client.py

import aiohttp

import json

import asyncio

import traceback

import time

class CrawlerClient:

    def __init__(self):

        self._workers = 0

        self.workers_max = 10

        self.server_host = "localhost"

        self.server_port = 8080

        self.session = aiohttp.ClientSession(loop=self.loop)

        self.queue = asyncio.Queue

    async def get_url(self):

        count = self.workers_max-self.queue.qsize()

        if count <= 0:

            print("no need to get urls this time")

        url = "http://%S:%S/task?count=%s" % (self.server_host,self.server_port,count)

        try:

            async with self.session.get(url,timeout = 3) as response:

                if response.status not in [200,201]:

                    return

                jsn = await response.text()

                urls = json.loads(jsn)

                msg = ('get_urls() to get [%s] but got[%s],@%s') % (count,len(urls),time.strftime('%Y-%m-%d %H:%M:%S'))

                print(msg)

                for lv in urls.items():

                    await self.queue.put(lv)

                print()

        except:

            traceback.print_exc()

            return

    async def send_result(self,result):

        '''

        result = {

        "url“:url,

        'url_real':response.url,

        'status':status,

        "newurls":newurls,

        }

        '''

        url = "http://%S:%S/task" % (self.server_host,self.server_port)

        try:

            async with self.session.post(url,json = result,timeout = 3) as response:

                response.status

        except:

            traceback.print_exc()

            pass

使用sanic框架实现分布式爬虫的更多相关文章

基于Python使用scrapy-redis框架实现分布式爬虫
1.首先介绍一下:scrapy-redis框架 scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能.github地址: https: ...
基于scrapy框架的分布式爬虫
分布式概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取. 原生的scrapy是无法实现分布式调度器无法被共享管道无法被共享基于 scrapy+redi ...
Cola：一个分布式爬虫框架 - 系统架构 - Python4cn(news, jobs)
Cola:一个分布式爬虫框架 - 系统架构 - Python4cn(news, jobs) Cola:一个分布式爬虫框架发布时间:2013-06-17 14:58:27, 关注:+2034, 赞美: ...
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
分布式爬虫框架XXL-CRAWLER
<分布式爬虫框架XXL-CRAWLER> 一.简介 1.1 概述 XXL-CRAWLER 是一个分布式爬虫框架.一行代码开发一个分布式爬虫,拥有"多线程.异步.IP动态代理.分布 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
爬虫开发14.scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...
基于redis的简易分布式爬虫框架
代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...
Scrapy框架之基于RedisSpider实现的分布式爬虫
需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬 ...
Python分布式爬虫必学框架Scrapy打造搜索引擎
Python分布式爬虫必学框架Scrapy打造搜索引擎部分课程截图: 点击链接或搜索QQ号直接加群获取其它资料: 链接:https://pan.baidu.com/s/1-wHr4dTAxfd51M ...

随机推荐

Ceph 存储集群第一部分：配置和部署
内容来源于官方,经过个人实践操作整理,官方地址:http://docs.ceph.org.cn/rados/ 所有 Ceph 部署都始于 Ceph 存储集群. 基于 RADOS 的 Ceph 对象存储 ...
Elastic：使用Postman来访问需要账号密码的Elastic Stack
Dockerfile文件中的ENTRYPOINT,CMD命令跟k8s中command，args之间的关系
8.maven上传jar包以及SNAPSHOT的一个坑
1,手动上传包如何将一些新的外部包上传到私服当中呢? 首先是要登录上去,然后点击 Upload,找到 maven-local将jar包找到选中,然后填写对应的三个定位信息即可上传. 在引用的时候,道 ...
在 Fedora 中使用 Cockpit 创建虚拟机
本文向你展示如何在 Fedora 31 上使用安装 Cockpit 所需软件来创建和管理虚拟机.Cockpit 是一个交互式管理界面,可让你在任何受支持的 Web 浏览器上访问和管理系统.随着 vir ...
8_Quartz
一. 引言 1.1 简介 Quartz: http://www.quartz-scheduler.org/ 是一个定时任务调度框架 ,比如我们遇到这样的问题想在30分钟后, 查看订单是否支付, 未 ...
【Azure 应用服务】App Service频繁出现 Microsoft.WindowsAzure.Diagnostics.DiagnosticMonitorTraceListener 异常分析
问题描述在使用App Service的过程中,发现应用频繁出现503错误,通过Kudu站点获取到Logfiles. 在 Eventlog.xml 文件中,发现大量的 Microsoft.Window ...
一文讲清楚 JVM Safe Point
大家好,我是树哥. 关于 Safe Point 是 JVM 中很关键的一个概念,但我估计有不少同学不是很懂.于是今天跟大家来深入聊聊 Safe Point,希望通过这篇文章能解答这样几个问题: 什么是 ...
【C++】GoogleTest进阶之gMock
gMock是什么当我们去写测试时,有些测试对象很单纯简单,例如一个函数完全不依赖于其他的对象,那么就只需要验证其输入输出是否符合预期即可. 但是如果测试对象很复杂或者依赖于其他的对象呢?例如一个函数 ...
驱动开发：内核监视LoadImage映像回调
在笔者上一篇文章<驱动开发:内核注册并监控对象回调>介绍了如何运用ObRegisterCallbacks注册进程与线程回调,并通过该回调实现了拦截指定进行运行的效果,本章LyShark将带 ...

使用sanic框架实现分布式爬虫

使用sanic框架实现分布式爬虫的更多相关文章

随机推荐

热门专题