关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现

我们接着关于爬虫平台的架构设计实现和框架的选型(一)继续来讲爬虫框架的架构实现和框架的选型。   
前面介绍了scrapy的基本操作，下面介绍下scrapy爬虫的内部实现架构如下图

1、Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)

2、Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

3、Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

4、Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理

5、ItemPipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

6、Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

7、Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）。

Scrapy 爬虫整过处理的过程如下：

每一个用scrapy创建的爬虫项目都会生成一个middlewares.py文件，在这个文件中定义了两个处理中间件SpiderMiddleware和DownloaderMiddleware，这两个中间件分别负责请求前的过滤和请求后的response过滤。

上面介绍了基于scrapy的异步爬虫，下面介绍一下实时爬虫，也就是爬虫数据实时返回。

我们可以用requests+BeautifulSoup来进行实现。

Requests负责网页的请求，BeautifulSoup负责对请求完的网页进行网页解析。

下面的代码是一个爬取应用宝中理财类APP的名称的爬虫代码实现

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

import time

class SyncCrawlSjqq(object):

    def parser(self,url):

        req = requests.get(url)

        soup = BeautifulSoup(req.text,"lxml")

        name_list = soup.find(class_='app-list clearfix')('li')

        names=[]

        for name in name_list:

            app_name = name.find('a',class_="name ofh").text

            names.append(app_name)

        return names

if __name__ == '__main__':

    syncCrawlSjqq = SyncCrawlSjqq()

    t1 = time.time()

    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"

    print(syncCrawlSjqq.parser(url))

    t2 = time.time()

    print('一般方法，总共耗时：%s' % (t2 - t1))

运行结果如下

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqq.py

['宜人贷借款', '大智慧', '中国建设银行', '同花顺手机炒股股票软件', '随手记理财记账', '平安金管家', '翼支付', '第一理财', '平安普惠', '51信用卡管家', '借贷宝', '卡牛信用管家', '省呗', '平安口袋银行', '拍拍贷借款', '简理财', '中国工商银行', 'PPmoney出借', '360借条', '京东金融', '招商银行', '云闪付', '腾讯自选股（腾讯官方炒股软件）', '鑫格理财', '中国银行手机银行', '风车理财', '招商银行掌上生活', '360贷款导航', '农行掌上银行', '现金巴士', '趣花分期', '挖财记账', '闪银', '极速现金侠', '小花钱包', '闪电借款', '光速贷款', '借花花贷款', '捷信金融', '分期乐']

一般方法，总共耗时：0.3410000801086426

Process finished with exit code 0

我们可以采用flask web 框架对上面的方法做一个http 服务，然后上面的爬虫就变成了http爬虫服务了。调用http服务后，服务实时返回爬取的数据给http请求调用方，示例参考代码如下：

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

from flask import Flask, request, Response

import json

app = Flask(__name__)

class SyncCrawlSjqq(object):

    def parser(self,url):

        req = requests.get(url)

        soup = BeautifulSoup(req.text,"lxml")

        name_list = soup.find(class_='app-list clearfix')('li')

        names=[]

        for name in name_list:

            app_name = name.find('a',class_="name ofh").text

            names.append(app_name)

        return names

@app.route('/getSyncCrawlSjqqResult',methods = ['GET'])

def getSyncCrawlSjqqResult():

    syncCrawlSjqq=SyncCrawlSjqq()

    return Response(json.dumps(syncCrawlSjqq.parser(request.args.get("url"))),mimetype="application/json")

if __name__ == '__main__':

    app.run(port=3001,host='0.0.0.0',threaded=True)

    #app.run(port=3001,host='0.0.0.0',processes=3)

并发方法可以使用多线程来加速一般方法，我们使用的并发模块为concurrent.futures模块，设置多线程的个数为20个（实际不一定能达到，视计算机而定）。实现的示例代码如下：

# -*- coding: utf-8 -*-

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

import requests

from bs4 import BeautifulSoup

import time

class SyncCrawlSjqqMultiProcessing(object):

    def parser(self,url):

        req = requests.get(url)

        soup = BeautifulSoup(req.text,"lxml")

        name_list = soup.find(class_='app-list clearfix')('li')

        names=[]

        for name in name_list:

            app_name = name.find('a',class_="name ofh").text

            names.append(app_name)

        return names

if __name__ == '__main__':

    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"

    executor = ThreadPoolExecutor(max_workers=20)

    syncCrawlSjqqMultiProcessing = SyncCrawlSjqqMultiProcessing()

    t1 = time.time()

    future_tasks=[executor.submit(print(syncCrawlSjqqMultiProcessing.parser(url)))]

    wait(future_tasks, return_when=ALL_COMPLETED)

    t2 = time.time()

    print('一般方法，总共耗时：%s' % (t2 - t1))

运行结果如下：

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqqMultiProcessing.py

一般方法，总共耗时：0.3950002193450928

Process finished with exit code 0

比如单线程运行，多线程在爬虫时明显会要快很多。

关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现的更多相关文章

Java生鲜电商平台-促销架构以及秒杀解决方案实战
Java生鲜电商平台-促销架构以及秒杀解决方案实战背景:随着这几年的电商的大热,我们经常看到一些商家为了促销和快速收益,纷纷推出了秒杀活动.不管是日常的超市里面的促销,明星演唱会门票售卖,还是春节订 ...
GPS部标平台的架构设计(十)-基于Asp.NET MVC构建GPS部标平台
在当前很多的GPS平台当中,有很多是基于asp.NET+siverlight开发的遗留项目,代码混乱而又难以维护,各种耦合和关联,要命的是界面也没见到比Javascript做的控件有多好看,随着需求的 ...
GPS部标平台的架构设计(四)-百度地图设计
部标GPS软件平台之百度地图设计地图是客户端中不可缺少的一个模块,很多人在设计和画图时候,喜欢加上地图引擎这样高大上的字眼,显得自己的平台有内涵,说白了就是用第三方的SDK来开发,早期的GPS监控 ...
微服务架构的基础框架选择：Spring Cloud还是Dubbo？
最近一段时间不论互联网还是传统行业,凡是涉及信息技术范畴的圈子几乎都在讨论微服务架构.近期也看到各大技术社区开始组织一些沙龙和论坛来分享Spring Cloud的相关实施经验,这对于最近正在整理Spr ...
ML平台_小米深度学习平台的架构与实践
(转载:http://www.36dsj.com/archives/85383)机器学习与人工智能,相信大家已经耳熟能详,随着大规模标记数据的积累.神经网络算法的成熟以及高性能通用GPU的推广,深度学 ...
Others-大数据平台Lambda架构浅析（全量计算+增量计算）
大数据平台Lambda架构浅析(全量计算+增量计算) 2016年12月23日 22:50:53 scuter_victor 阅读数:1642 标签: spark大数据lambda 更多个人分类: 造 ...
深入浅出etcd系列Part 1 – etcd架构和代码框架
1.绪论 etcd作为华为云PaaS的核心部件,实现了PaaS大多数组件的数据持久化.集群选举.状态同步等功能.如此重要的一个部件,我们只有深入地理解其架构设计和内部工作机制,才能更好地学习华为云Ku ...
基于.Net平台常用的组件和框架整理
转载自:http://www.cnblogs.com/hgmyz/p/5313983.html 基于转载进行补充 RPC框架: RPC:远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而 ...
IT咨询顾问:一次吐血的项目救火 java或判断优化小技巧 asp.net core Session的测试使用心得【.NET架构】BIM软件架构02：Web管控平台后台架构 NetCore入门篇：（十一）NetCore项目读取配置文件appsettings.json 使用LINQ生成Where的SQL语句 js_jquery_创建cookie有效期问题_时区问题
IT咨询顾问:一次吐血的项目救火年后的一个合作公司上线了一个子业务系统,对接公司内部的单点系统.我收到该公司的技术咨询:项目启动后没有规律的突然无法登录了,重新启动后,登录一断时间后又无法重新登 ...

随机推荐

那些证书相关的玩意儿(SSL,X.509,PEM,DER,CRT,CER,KEY,CSR,P12等)（使用OpenSSL的命令行）
之前没接触过证书加密的话,对证书相关的这些概念真是感觉挺棘手的,因为一下子来了一大堆新名词,看起来像是另一个领域的东西,而不是我们所熟悉的编程领域的那些东西,起码我个人感觉如此,且很长时间都没怎么搞懂 ...
github网页
GitHub主页创建仓库想必大家都有自己的Github账号吧,没有的可以到GitHub官网注册账号,注册完后,我们来下一步,在我们的GitHub上面右上角的New repository来创建一个仓 ...
在WPF中实现图片一边下载一边显示
原文在WPF中实现图片一边下载一边显示当我们上网查看一个较大的图片时,浏览器能一边下载一边显示,这样用户体验是比较好的,但在WPF程序中,当我们通过如下方式显示一幅图片时: img.Source ...
Qt之自定义搜索框——QLineEdit里增加一个Layout，还不影响正常输入文字（好像是一种比较通吃的方法）
简述关于搜索框,大家都经常接触.例如:浏览器搜索.Windows资源管理器搜索等. 当然,这些对于Qt实现来说毫无压力,只要思路清晰,分分钟搞定. 方案一:调用QLineEdit现有接口 void ...
内存可用性判断 IsBadCodePtr IsBadReadPtr 等等
程序异常崩溃,多数是有内存访问异常引起.为定位崩溃位置通常考虑加强内存访问控制,如此有必要进行内存可用性判断,从<Windows核心编程>中看到内存指针的可用性判断方法,感觉还不错,此处记 ...
Android零基础入门第12节：熟悉Android Studio界面，开始装逼卖萌
原文:Android零基础入门第12节:熟悉Android Studio界面,开始装逼卖萌通过前两期的学习,我们可以正确搭建好Android Studio的开发环境,也创建了HelloWorld工程 ...
WP 8.1 中挂起时页面数据保存方式(1)
1.保存到Applicaion Data配置信息中: 保存: privatevoid testTB_TextChanged(object sender, TextChangedEventArgs e) ...
Windows 10 UWP 部署
原文 http://youthlin.com/20151105.html 我们知道VS连接手机可以直接部署到手机里,但平板貌似无法这样干,平板与电脑连接没有丝毫反应……那么想看VS里写的uwp应 ...
Delphi开发 Android 程序启动画面简单完美解决方案
原文在这里还是这个方法好用,简单!加上牧马人做的自动生成工具,更是简单. 以下为原文,向波哥敬礼! 前面和音儿一起研究 Android 下启动画面的问题,虽然问题得到了解决,但是,总是感觉太麻烦,主 ...
“多团队大规模”开发模式 - 基于SAP HANA平台的多团队产品研发
应用SAP HANA “官方”开发模式的伙伴们在转到“多团队大规模”开发模式时会遇到各式各样的心理不适应的状况,各种纠结.比如GIT Repository和HANA Repository冲突什么的. ...

关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现

关于爬虫平台的架构实现和框架的选型(二)--scrapy的内部实现以及实时爬虫的实现的更多相关文章

随机推荐

热门专题