scrapy是一个Python爬虫框架。我们自己用requests也能写爬虫（GET某个URL，然后Parse网页的内容），那么，问题来了，scrapy高明在哪些地方呢？下面就来讨论下这个话题，看看业界通用的爬虫是怎么设计的。

从[1]可得scrapy架构图。它由5个核心模块组成。

5个模块功能

(1) 最重要的模块是Engine：它是数据流的指挥官，负责控制数据流（控制各个模块之间的通信）；
(2) scheduler：负责将Engine提交的URL排成一个队列；
(3) spider：用户自己写的代码放在spider。主要负责HTTP response的解析，从回复的HTML中提取关键数据。
(4) downloader：负责跟URL对应的server通信，并获取返回的内容。
(5) item pipeline：负责处理spider提取出来的信息，一般用于做跟DB相关的操作。

2个中间件

中间件是处于两个模块之间的一种特殊hook，它的目的是提供一种简易的机制，通过插拔用户自己写的代码，来扩展新功能。

典型的数据流

(1) Engine启动，从spider中读出要爬的第一个URL
(2) Engine将读到的第一个URL送给scheduler
(3) Engine向scheduler请求下一个要爬的URL
(4) scheduler从队列中读出一个URL，送给Engine，Engine将这个URL送到downloader
(5) downloader去GET这个URL，并将HTTP response生成一个Response对象。downloader将生成的Response返回给Engine
(6) Engine将这个Response对象发给spider
(7) spider处理这个Response对象，提取其中的信息，生成item。还会生成新的请求。并将item和请求送给Engine
(8) Engine将收到的请求送给scheduler，将收到的item送给item pipline
(9) 重复步骤(2)，直到没有URL需要继续处理

所有的处理流程都需要经过 Scrapy Engine，然后到达下一个流程

源自 http://blog.csdn.net/ybdesire/article/details/51559255

scrapy架构设计分析的更多相关文章

Web API应用架构设计分析（2）
在上篇随笔<Web API应用架构设计分析(1)>,我对Web API的各种应用架构进行了概括性的分析和设计,Web API 是一种应用接口框架,它能够构建HTTP服务以支撑更广泛的客户端 ...
scrapy架构初探
scrapy架构初探引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库.单纯的开放源代码并不是开源的全部,开源的核心是"开放的思想",聚合最好的想法.技术.人员, ...
Scrapy架构概述
Scrapy架构概述 1, 从最初自己编写的spiders,获取到start_url,并且封装成Request对象. 2,通过engine(引擎)调度给SCHEDULER(Requests管理调度器) ...
scrapy架构简介
一.scrapy架构介绍 1.结构简图: 主要组成部分:Spider(产出request,处理response),Pipeline,Downloader,Scheduler,Scrapy Engine ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
Python -- Scrapy 架构概览
架构概览本文档介绍了Scrapy架构及其组件之间的交互. 概述接下来的图表展现了Scrapy的架构,包括组件及在系统中发生的数据流的概览(绿色箭头所示). 下面对每个组件都做了简单介绍,并给出了详 ...
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
Saas系统架构的思考，多租户Saas架构设计分析
ToB Saas系统最近几年都很火.很多创业公司都在尝试创建企业级别的应用 cRM, HR,销售, Desk Saas系统.很多Saas创业公司也拿了大额风投.毕竟Saas相对传统软件的优势非常明显. ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...

随机推荐

C++字符串拼接和输入
一 .char类型字符串以空字符结尾 1.以空字符结尾,空字符被写作\0,其ASCII码为0,用来标记字符串的结尾. char dog[4]={'a','b','c','d'} //不是一个字符串 ...
ZOJ 3689 Digging（DP)
Description When it comes to the Maya Civilization, we can quickly remind of a term called the end o ...
【转】Linux内核结构详解
Linux内核主要由五个子系统组成:进程调度,内存管理,虚拟文件系统,网络接口,进程间通信. 1.进程调度 (SCHED):控制进程对CPU的访问.当需要选择下一个进程运行时,由调度程序选择最值得运行 ...
c#程序的config文件问题
1.vshost.exe.config和app.config两个文件可不要,但exe.config文件不可少. 2.但是app.config最好也要修改了,每次重新生成程序的时候.exe.cmonfi ...
iOS 出现错误reason: image not found的解决方案
在制作framework时遇到真机运行时导致的reason: image not found允许崩溃的问题,下面是我的解决方案: 首先我们分析一下出现这种情况的原因,原因就是framework找不到镜 ...
idea导出jar包
在File->Project Structure->Artifacts,如图: 然后: 点击Apply,OK. 跳出去就可以看到多了META-INF文件夹: 然后build项目,就可以看 ...
linux后台运行之screen和nohup
3.1 nohup命令如果你正在运行一个进程,而且你觉得在退出帐户时该进程还不会结束,那么可以使用nohup命令. 该命令可以在你退出帐户/关闭终端之后继续运行相应的进程. nohup就是不挂起的意 ...
Python2爬虫获取的数据存储到MySQL中时报错"Incorrect string value: '\\xE6\\x96\\xB0\\xE9\\x97\\xBB' for column 'new' at row 1"的解决办法
由于一直使用python3进行编码,在使用Python2时,将爬虫数据连接数据库进行存储时,出现如上的报错,经查资料是数据库编码问题. 如下转自:http://www.cnblogs.com/liu ...
perf record -c
如果perf record -c -c后面接的是sample_period,也就是说你让这个事件没我的loop进程一直在执行,我的CPU的频率是2.6G hz,也就是说每一秒会有2,600,000, ...
springBoot配置分析(属性和结构化)
使用idea自带插件创建项目一直下一步到完成 application.properties local.ip.addr = 192.168.2.110 redis.host = 192.168.3. ...

scrapy架构设计分析

5个模块功能

2个中间件

典型的数据流

scrapy架构设计分析的更多相关文章

随机推荐

热门专题