Scrapy的架构与原理的理解【转】
Scrapy 框架
- Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 
- 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 
- Scrapy 使用了 Twisted - ['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
Scrapy架构图(绿线是数据流向):

- Scrapy Engine(引擎): 负责- Spider、- ItemPipeline、- Downloader、- Scheduler中间的通讯,信号、数据传递等。
- Scheduler(调度器): 它负责接受- 引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当- 引擎需要时,交还给- 引擎。
- Downloader(下载器):负责下载- Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给- Scrapy Engine(引擎),由- 引擎交给- Spider来处理,
- Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给- 引擎,再次进入- Scheduler(调度器),
- Item Pipeline(管道):它负责处理- Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
- Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
- Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作- 引擎和- Spider中间- 通信的功能组件(比如进入- Spider的Responses;和从- Spider出去的Requests)
Scrapy的运作流程
代码写好,程序开始运行...
- 引擎:Hi!- Spider, 你要处理哪一个网站?
- Spider:老大要我处理xxxx.com。
- 引擎:你把第一个需要处理的URL给我吧。
- Spider:给你,第一个URL是xxxxxxx.com。
- 引擎:Hi!- 调度器,我这有request请求你帮我排序入队一下。
- 调度器:好的,正在处理你等一下。
- 引擎:Hi!- 调度器,把你处理好的request请求给我。
- 调度器:给你,这是我处理好的request
- 引擎:Hi!下载器,你按照老大的- 下载中间件的设置帮我下载一下这个request请求
- 下载器:好的!给你,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后- 引擎告诉- 调度器,这个request下载失败了,你记录一下,我们待会儿再下载)
- 引擎:Hi!- Spider,这是下载好的东西,并且已经按照老大的- 下载中间件处理过了,你自己处理一下(注意!这儿responses默认是交给- def parse()这个函数处理的)
- Spider:(处理完毕数据之后对于需要跟进的URL),Hi!- 引擎,我这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。
- 引擎:Hi !- 管道我这儿有个item你帮我处理一下!- 调度器!这是需要跟进URL你帮我处理下。然后从第四步开始循环,直到获取完老大需要全部信息。
- 管道``调度器:好的,现在就做!
注意!只有当调度器中不存在任何request了,整个程序才会停止,(也就是说,对于下载失败的URL,Scrapy也会重新下载。)
制作 Scrapy 爬虫 一共需要4步:
- 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
- 明确目标 (编写items.py):明确你想要抓取的目标
- 制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
- 存储内容 (pipelines.py):设计管道存储爬取内容
如何创建Scrapy项目
创建Scrapy项目
创建scrapy项目的命令是scrapy startproject 项目名,创建一个爬虫
进入到项目目录scrapy genspider 爬虫名字 爬虫的域名,例子如下:
zhaofandeMBP:python_project zhaofan$ scrapy startproject test1
New Scrapy project 'test1', using template directory '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/scrapy/templates/project', created in:
/Users/zhaofan/Documents/python_project/test1 You can start your first spider with:
cd test1
scrapy genspider example example.com
zhaofandeMBP:python_project zhaofan$
zhaofandeMBP:test1 zhaofan$ scrapy genspider shSpider hshfy.sh.cn
Created spider 'shSpider' using template 'basic' in module:
test1.spiders.shSpider
scrapy项目结构

- items.py: 负责数据模型的建立,类似于实体类。
- middlewares.py: 自己定义的中间件。
- pipelines.py: 负责对spider返回数据的处理。
- settings.py: 负责对整个爬虫的配置。
- spiders目录: 负责存放继承自scrapy的爬虫类。
- scrapy.cfg: scrapy基础配置
Scrapy的架构与原理的理解【转】的更多相关文章
- 对scrapy经典框架爬虫原理的理解
		1,spider打开某网页,获取到一个或者多个request,经由scrapy engine传送给调度器schedulerrequest特别多并且速度特别快会在scheduler形成请求队列queue ... 
- HBase的基本架构及其原理介绍
		1.概述:最近,有一些工程师问我有关HBase的基本架构的问题,其实这个问题仅仅说架构是非常简单,但是需要理解.在这里,我觉得可以用HDFS的架构作为借鉴.(其实像Hadoop生态系统中的大部分组建的 ... 
- 爱莲(iLinkIT)的架构与原理
		随着移动互联网时代的到来,手机正在逐步替代其他的设备,手机是电话.手机是即时通讯,手机是相机,手机是导航仪,手机是钱包,手机是音乐播放器……. 除此之外,手机还是一个大大的U盘,曾几何时,我们用一根长 ... 
- Scrapy的架构初探
		Scrapy,Python开发的一个web抓取框架. 1,引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库.单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想 ... 
- Hbase架构与原理
		Hbase架构与原理 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统".就 ... 
- [转帖]万字详解Oracle架构、原理、进程,学会世间再无复杂架构
		万字详解Oracle架构.原理.进程,学会世间再无复杂架构 http://www.itpub.net/2019/04/24/1694/ 里面的图特别好 数据和云 2019-04-24 09:11:59 ... 
- HDFS架构及原理
		原文链接:HDFS架构及原理 引言 进入大数据时代,数据集的大小已经超过一台独立物理计算机的存储能力,我们需要对数据进行分区(partition)并存储到若干台单独的计算机上,也就出现了管理网络中跨多 ... 
- Spark基本架构及原理
		Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁 ... 
- 对CAP原理的理解
		对CAP原理的理解 CAP原理按照定义,指的是C(Consistency)一致性,A(Availability)可用性,P(Partition tolerance)分区容错性在一个完整的计算机系统中三 ... 
随机推荐
- SpringMVC10 InitBinder 注册自定义编辑器
			1.配置web.xml文件 <!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application 2.3// ... 
- ajax post方式表单提交的注意事项。
			当我们创建一个异步对象XMLHttpRequest同时post方式向后台传输数据的时候. 我们要设置异步对象的xhr.setRequestHeader成员的值为 XMLHttpRequest.setR ... 
- jQuery动态添加元素,并提交json格式数据到后台
			参考:https://www.cnblogs.com/shj-com/p/7878727.html 下载 下载该插件的地址是:http://www.bootcdn.cn/jquery.serializ ... 
- 一、基础知识 React API 一览
			1.10 Hooks 参考文章:https://juejin.im/post/5be3ea136fb9a049f9121014 demo: /** * 必须要react和react-dom 16.7以 ... 
- #include stdio.h(2)
			#include <stdio.h> //mian函数是程序的入口 int main() { /* //函数:是按一定的格式对一段代码的封装 //专门用来实现一功能的代码合集,可以重复使用 ... 
- Oracle SQL Developer-3.2.20.09.87 Windows 10启动问题处理&配置
			用了好多年的工具,准备在笔记本上使用时启动不了,但在办公室PC上可以正常使用.两者电脑OS都一样,一个是全新安装.一个是从Windows 7升级而来.下载了最新版发现版本到17了,Oracle刷版本号 ... 
- 利用临时表实现CTE递归查询
			一.CTE递归查询简介 --CTE递归查询终止条件在TSQL脚本中,也能实现递归查询,SQL Server提供CTE(Common Table Expression),只需要编写少量的代码,就能实现递 ... 
- java 串口通信实现流程
			1.下载64位rxtx for java 链接:http://fizzed.com/oss/rxtx-for-java 2.下载下来的包解压后按照说明放到JAVA_HOME即JAVA的安装路径下面去 ... 
- IOS截取部分图片
			截取部分图片这么简单: - (void)loadView { [[UIApplication sharedApplication] setStatusBarHidden:YES withAni ... 
- hdu-1198 Farm Irrigation---并查集+模拟(附测试数据)
			题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=1198 题目大意: 有如上图11种土地块,块中的绿色线条为土地块中修好的水渠,现在一片土地由上述的各种 ... 
