scrapy架构流程

1.爬虫spiders将请求通过引擎传递给调度器scheduler

2.scheduler有个请求队列，在请求队列中拿出请求给下载器，downloader

3.downloader从Internet的服务器端请求数据，下载下来

4.下载下来的响应体交还给我们自己写的spiders，对响应体做相应的处理

5.响应体处理后有两种情况，1）：如果是数据，交给pipeline管道，处理数据 2）：如果是请求，接着交给调度器放到请求队列中等待处理，然后交给下载器处理，如此循环，直到没有请求产生

redis-scrapy是基于scrapy框架的一套组件

scrapy是一个通用的爬虫框架，不支持分布式操作，scrapy-redis是为了更方便的是scrapy进行分布式的爬取，而提供了一些以redis为基础的组件（仅有组件）

scrapy提供了四种组件（components），四种组件也就意味这四个模块都要做相应的修改：

scheduler
duplication filter
item pipeline
base spider

scrapy的去重是在内存中执行的，如果请求量非常大的时候，scrapy占用的内存会非常高，如果我们把这个去重的指纹队列放到redis数据库中的话就会很方便了

scrapy中的数据是交给pipeline来处理的，在scrapy-redis中，数据是直接存储到redis数据库中的，然后我们对数据进行处理持久化到mongodb中或者mysql中，因为redis也是基于内存的存储，不适合持久化数据

Scheduler：

scrapy改造了python本来的collection.deque（双向队列）形成了自己的scrapy queue，但是scrapy多个spider不能共享待爬取队列scrapy queue，即scrapy本身不支持爬取分布式，scrapy-redis的解决是把这个scrapy queue换成redis数据库（也是指redis队列），从同一个redis-server存放要爬取的request，便能让多个spider从同一个数据库中读取。

scrapy中跟待爬队列直接相关的就是调度器scheduler，它把新的request进行入列操作，放到scrapy queue中，把要爬取的request取出，从scrapy queue中取出，它把待爬队列按照优先级建立了一种字典结构

{

优先级0：队列0

优先级1：队列1

优先级2：队列2

}

然后根据request中的优先级，来决定该入到哪个队列中，出列时则是按照优先级较小的优先出列。对于这个较高级别的队列结构，scrapy要提供一系列的方法来管理它，原有的scrapy scheduler以无法满足，此时需要使用scrapy-redis中的scheduler组件。

duplication filter:

scrapy中用集合来实现request的去重功能。scrapy中将已经发送的request指纹信息放入到set中，然后把将要发送的request指纹信息和set中的进行比较，如果存在则返回，否则继续进行操作。核心实现功能代码如下：

 def request_seen(self,request):

     #self.request_figerprints就是一个指纹集合

     fp=self.request_fingerprint(request)

     #这就是判重的核心操作

     if fp in self.fingerprints:

         return True

     self.fingerprints.add(fp)

     if self.file:

         self.file.write(fp+os.linesep)

scrapy架构流程的更多相关文章

scrapy架构初探
scrapy架构初探引言 Python即时网络爬虫启动的目标是一起把互联网变成大数据库.单纯的开放源代码并不是开源的全部,开源的核心是"开放的思想",聚合最好的想法.技术.人员, ...
Scrapy架构概述
Scrapy架构概述 1, 从最初自己编写的spiders,获取到start_url,并且封装成Request对象. 2,通过engine(引擎)调度给SCHEDULER(Requests管理调度器) ...
scrapy架构简介
一.scrapy架构介绍 1.结构简图: 主要组成部分:Spider(产出request,处理response),Pipeline,Downloader,Scheduler,Scrapy Engine ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
Python -- Scrapy 架构概览
架构概览本文档介绍了Scrapy架构及其组件之间的交互. 概述接下来的图表展现了Scrapy的架构,包括组件及在系统中发生的数据流的概览(绿色箭头所示). 下面对每个组件都做了简单介绍,并给出了详 ...
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
一：SpringMVC架构流程
架构流程: 1.用户发送请求至前端控制器DispatcherServlet 2.DispatcherServlet收到请求调用HandlerMapping处理器映射器. 3.处理器映射器根据请求url ...
爬虫---scrapy架构和原理
scrapy是一个为了爬取网站数据, 提取结构性数据而编写的应用框架, 它是基于Twisted框架开发而来, 而Twisted框架是事件驱动的, 比较适合异步代码. 对会阻塞线程的操作, 包括访问数据 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...

随机推荐

Gym 100956 A Random Points on the Circle
二分答案. 对于每次二分后的答案来说, 先倍增序列,通过 two point 来找到以每个点为起点的最优的符合答案的在哪里. 然后可以DFS树去判断他的前k祖先之间的距离是不是大于k. 常数有点大. ...
JOBDU 1108 堆栈的使用
之所以把这道题目贴出来的原因,是因为真的有几个地方要注意的题目1108:堆栈的使用时间限制:1 秒内存限制:32 兆特殊判题:否提交:10763 解决:3119 题目描述: 堆栈是一种基本的 ...
Treasure Hunt CodeForces - 979B
After the big birthday party, Katie still wanted Shiro to have some more fun. Later, she came up wit ...
hdu 4722 Good Numbers 规律数位dp
#include<iostream> #include<cstring> #include<cstdio> #include<vector> #incl ...
【Offer】[38] 【字符串的排列】
题目描述思路分析测试用例 Java代码代码链接题目描述输入一个字符串,打印出该字符串中字符的所有排列.例如,输入字符串abc,则打印出由字符a.b.c所能排列出来的所有字符串abc.acb. ...
Spring Cloud Alibaba | Sentinel：分布式系统的流量防卫兵基础实战
Spring Cloud Alibaba | Sentinel:分布式系统的流量防卫兵基础实战 Springboot: 2.1.8.RELEASE SpringCloud: Greenwich.SR2 ...
FreeSql （三十）读写分离
FreeSql 支持数据库读写分离,本功能是客户端的读写分离行为,数据库服务器该怎么配置仍然那样配置,不受本功能影响,为了方便描术后面讲到的[读写分离]都是指客户端的功能支持. 各种数据库的读写方案不 ...
WeakMap 本身释放，而 keyObject 没有释放的情况下，value 会释放吗？
const keyObject = ['keyObject']; new WeakMap().set(keyObject, ['value']); 问题:现在 ['value'] 会被释放吗? 听说W ...
03 (H5*) Vue第三天
目录: 1:Vue-resource中的全局配置. 2:Vue动画2部曲 3:animate动画 4:钩子函数动画 5:组件三部曲,推荐使用template标签来创建组件模板 1:Vue-resour ...
[AWS] 01 - What is Amazon EMR
[DE] ML on Big data: MLlib 关于 Amazon EMR 发布版本利用 Amazon EMR 分析大数据 Amazon Athena 是一种交互式查询服务,让您能够轻松使用标 ...

scrapy架构流程

scrapy架构流程的更多相关文章

随机推荐

热门专题