Scrapy框架解读

1. Scrapy组件
a. 主体部分
i. 引擎(Scrapy)：处理整个系统的数据流处理，触发事务(框架核心)
ii. 调度器(Scheduler)：
1) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回。
2) 类似一个URL的优先队列, 由它决定下一个要抓取的网址, 同时去除重复的网址
iii. 下载器(Downloader)
1) 用于下载网页内容, 并将网页内容返回给爬虫（spiders）
2) Scrapy下载器是建立在twisted这个高效的异步模型上的
iv. 爬虫(Spiders)
1) 爬虫从特定的网页中提取自己需要的信息, 即所谓的实体(Item)
2) 用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
v. 项目管道(Pipeline)
1) 负责处理爬虫从网页中抽取的实体
2) 功能：持久化实体、验证实体的有效性、清除不需要的信息。
3) 当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
b. 中间件
i. 下载器中间件(Downloader Middlewares)
1) 介于Scrapy引擎和下载器之间的框架
2) 处理Scrapy引擎与下载器之间的请求及响应
ii. 爬虫中间件(Spider Middlewares)
1) 介于Scrapy引擎和爬虫之间的框架
2) 处理蜘蛛的响应输入和请求输出。
iii. 调度中间件(Scheduler Middewares)
1) 介于Scrapy引擎和调度之间的中间件
2) 从Scrapy引擎发送到调度的请求和响应。
2. 运行流程
a. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
b. 引擎把URL封装成一个请求(Request)传给下载器
c. 下载器从Internet中把资源下载下来，并封装成应答包(Response)
d. 爬虫解析Response
i. 解析出实体（Item）,则交给实体管道进行进一步的处理
ii. 解析出的是链接（URL）,则把URL交给调度器等待抓取

Scrapy框架解读的更多相关文章

scrapy框架解读--深入理解爬虫原理
scrapy框架结构图: 组成部分介绍: Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Do ...
解读Scrapy框架
Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

随机推荐

前端插件之Bootstrap Dual Listbox使用
工欲善其事,必先利其器对于很多非专业前端开发来说写页面是非常痛苦的,借助框架或插件往往能够达到事半功倍的效果,本系列文章会介绍我在运维系统开发过程中用到的那些顺手的前端插件,如果你是想写XX管理系统 ...
python函数基础-参数-返回值-注释-01
什么是函数函数就是有特定功能的工具 # python中有内置函数(python解释器预先封装好的)与自定义函数(用户自定义封装的)之分为什么要用函数 # 可以减少代码冗余,增加代码复用性 # 使代 ...
iOS程序员如何提升核心竞争力，防止自己被裁员？
前言: 核心竞争力最早由普拉哈拉德和加里·哈默尔两位教授提出,通常认为核心竞争力,即企业或个人相较于竞争对手而言所具备的竞争优势与核心能力差异,说白了就是你的优势,而且最好是独一无二的的优势,这就是核 ...
WSASocket()创建套接字不成功解决方法
这几天我在写一个模仿windows自带的ping程序,可是套接字总是创建不成功,在网上找了一些资料最后总算把问题解决了,现在总结一下. 解决方法:以管理员运行VS就行了我的是vs2013,vs2010 ...
python课堂整理17---文件操作（上）
1.在同一目录下新建文本文件 “爱了” 2.在该文件下写入内容,同时留意pycharm右下角的编码格式为 utf- 8 3.下面程序中的read函数会索引系统默认的编码格式,winx下是gbk ,所以 ...
Python中文本文件读写操作的编码问题
Python中文本文件读写的编码问题编码(encode): 我们输入的任何字符想要以文件(如.txt)的形式保存在计算机的硬盘上, 必须先经按照一定的规则编成计算机认识的二进制后,才能存在电脑硬盘上 ...
05-k8s调度器、预选策略、优选函数
目录 k8s调度器.预选策略.优选函数节点选择过程调度器预选策略优选函数高级调度设置机制 node选择器/node亲和调度 pod亲和性污点调度 Taints 与 Tolerations ...
TestNg中的断言你真的了解吗
前言在执行自动化测试脚本的时候,我们需要自动判断测试脚本执行完成后的实际结果是否与预期结果一致,这个时候就需要在程序运行之前写入断言,判断当前程序执行后是否正常. 关于TestNG断言分为两种: 软 ...
Java 之MVC动态分页完美实现
一个分页小技术有时也是让人挠头,在这里完全前端实现方式与Java的实现方式,我们提供给你完全的编码参考,希望能够帮到你哦(:) 内容导读 1.程序结构 2.JSP页面设计 3.分页主要编码 4.运行效 ...

Scrapy框架解读

Scrapy框架解读的更多相关文章

随机推荐

热门专题