scrapy架构图与执行流程

miaoning 2024-09-05 05:40:49 原文

概览

本文描述了Scrapy的架构图、数据流动、以及个组件的相互作用

架构图与数据流

上图中各个数字与箭头代表数据的流动方向和流动顺序，具体执行流程如下：

　　0. Scrapy将会实例化一个Crawler对象，在Crawler中：

　　　　创建spider对象----_create_spider

　　　　创建engine对象----_create_engine

　　　　通过engine对象打开spider并生成第一个request---- yield self.engine.open_spider(self.spider, start_requests)

　　　　　　实例化调度器对象----Scheduler

　　　　启动引擎---- yield defer.maybeDeferred(self.engine.start)

　　1. 引擎从Spider获取初始请求

　　　　----_next_request

　　　　----_next_request_from_scheduler

　　2. 引擎把初始请求给调度器，并向调度器询问下一次请求

　　　　----scheduler.next_request

　　3. 调度器会对url进行指纹去重，如果是未爬取过的url，就把它放到队列中等待，并把下一个request返回给引擎

　　　　把url放入到队列中----enqueue_request

　　　　返回下一个request----next_request

　　4. 引擎把从调度器返回的request途径下载中间件交给下载器

　　　　----download

　　5. 一旦页面完成下载，下载器将会生成一个响应，途径下载中间件，再把它交给引擎

　　　　----download

　　6. 引擎接收到响应，并把它途径爬虫中间件，再交给spider

　　　　----_handle_downloader_output

　　7. spdier接收到响应，并对它进行解析，解析出Items或者新的Request，再把它们途径爬虫中间件，提交给引擎

　　　　----parse

　　8. 引擎把接收到的items提交给Item Pipeline，把接收到的Request提交给调度器

　　9. 从步骤1开始重复该过程，直到不在有request

各组件介绍

ENGINE

引擎（engine）控制所有部件间的数据流，并在某些事件发生时触发事件

Scheduler

调度器（scheduler）接收来自引擎的request，并对它去重，放入到请队列中；并根据队列的取出规则，把请求按顺序返回给引擎

Downloader

下载器（Downloader）获取网页数据并返回给引擎

Spiders

爬虫（Spiders）用来解析response，提取出Items和新的Requests

Item Pipeline

对Items进行进一步的清洗，并持久化

Downloader middlewares

下载中间件可以勾住下载器和引擎之间的数据流，并对它们做一些处理，比如：

在request送到下载器之前对它做一些处理，可以添加User_Agent，修改IP等
对response做一些处理

Spider middlewares

爬虫中间件可以勾住爬虫和引擎之间的数据流，并对它们做一些处理

　　　　

scrapy架构图与执行流程的更多相关文章

步步深入：MySQL架构总览->查询执行流程->SQL解析顺序
前言: 一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了. 本文将从MySQL总体架构--->查询执行流程--->语句执行顺序来 ...
MySQL架构总览->查询执行流程->SQL解析顺序
Reference: https://www.cnblogs.com/annsshadow/p/5037667.html 前言: 一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后 ...
Spark架构与作业执行流程简介(scala版)
在讲spark之前,不得不详细介绍一下RDD(Resilient Distributed Dataset),打开RDD的源码,一开始的介绍如此: 字面意思就是弹性分布式数据集,是spark中最基本的数 ...
MySQL架构与SQL执行流程
MySQL架构设计下面是一张MySQL的架构图: 上方各个组件的含义如下: Connectors 指的是不同语言中与SQL的交互 Management Serveices & Utiliti ...
【Scrapy(一)】 Scrapy爬虫的基础执行流程
安装scrapy模块 : pip install scrapy 创建scrapy项目 1.scrapy startprojecty 项目名称注意:如果创建失败,可以先卸载原有的scrapy模块, ...
步步深入：MySQL架构总览->查询执行流程->SQL解析顺序(转)
文章转自 http://www.cnblogs.com/annsshadow/p/5037667.html https://www.cnblogs.com/cuisi/p/7685893.html
Spark架构与作业执行流程简介
https://www.cnblogs.com/shenh062326/p/3658543.html
20181012关于mysql内部执行流程
转自:https://www.cnblogs.com/annsshadow/p/5037667.html 步步深入:MySQL架构总览->查询执行流程->SQL解析顺序前言: 一直是 ...
0807再整理SQL执行流程
转自http://www.cnblogs.com/annsshadow/p/5037667.html MySQL架构总览->查询执行流程->SQL解析顺序前言: 一直是想知道一条SQ ...

随机推荐

51 Nod 1073 约瑟夫环
1073 约瑟夫环基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注 N个人坐成一个圆环(编号为1 - N),从第1个人开始报数,数到K的人出列,后面的人 ...
luogu P1330 封锁阳光大学 x
P1330 封锁阳光大学题目描述曹是一只爱刷街的老曹,暑假期间,他每天都欢快地在阳光大学的校园里刷街.河蟹看到欢快的曹,感到不爽.河蟹决定封锁阳光大学,不让曹刷街. 阳光大学的校园是一张由N个点构 ...
C++入门经典-例5.20-右值引用传递参数
1:使用字面值(如1.3.15f.true),或者表达式等临时变量作为函数实参传递时,按左值引用传递参数会被编译器阻止.而进行值传递时,将产生一个和参数同等大小的副本.C++11提供了右值引用传递参数 ...
webpack 第二部分
默认根目录当前项目修改目录 devServer devServer:{ open:true, //自动打开浏览器 port:3000, // 端口 contentBase:"dist&q ...
DeepFaceLab进阶：H128,DF,SAE模型有何不同？哪个最好？
整个换脸过程中模型是最重要的一部分,耗时久,调优难,很多人虽然一直在跑模型,却并不知道每个模型的特点. 我也常常被问及: 到底用哪个模型换脸效果最好? H128和DF有什么差别? H64和H28有什么 ...
leetcode171 Excel列表序列号
/** 可看做26进制到10进制转换问题:v=26*v+s[i]-'A'; **/ class Solution { public: int titleToNumber(string s) { ; f ...
electron创建窗口常用配置参数
{ "width": 800,//指定窗口的宽度,单位: 像素值. 默认是 800 "height":600,//指定窗口的高度,单位: 像素值,. 默认是 6 ...
ElasticSearch第五步-.net平台下c#操作ElasticSearch详解
前面我们讲解了关于ElasticSearch的安装配置,以及CRUD 本章我将讲解怎么使用c#操作ElasticSearch. 首先你需要一定的技术储备,比如:asp.net webapi,mvc,j ...
apache用户认证
创建一个目录abc:mkdir abc在此目录下建一个文件:12.txt正常情况下可以访问. 建立用户认证,从而使用户访问特定目录文件需要认证在虚拟主机配置文件中即vim /usr/local/ap ...
Promise.then链式调用
let a = new Promise((resolve,reject)=>{ resolve(1) }).then((r)=>{console.log(r)}).then(()=> ...