scrapy分布式的几个重点问题

我们之前的爬虫都是在同一台机器运行的，叫做单机爬虫。
scrapy的经典架构图也是描述的单机架构。

那么分布式爬虫架构实际上就是：
由一台主机维护所有的爬取队列，每台从机的sheduler共享该队列，协同存储与提取。
分布式爬虫的多台协作的关键是共享爬取队列。

队列用什么维护呢？
推荐redis队列
redis是非关系型数据库，用key-value形式存储，结构灵活，他不像关系型数据库必须要由一定的结构才能存储。
key-value可以是多种数据，非常灵活。
另外，redis是内存中的数据结构存储系统，处理速度快，性能好。
提供了队列，集合多种存储结构，方便队列维护和去重操作。

怎样来去重？
如果多台机器不仅往请求队列存，还同时从里面取，那么如何保证每台机子请求和存储的队列是不重复的呢？
借助redis集合
redis提供集合数据结构，我们知道集合里面的元素是不重复的
首先，在redis中存储每隔request的指纹。
在向request队列中加入request前首先验证这个request的指纹是否已经加入到集合中。
如果已存在，则不添加requets到队列，
如果不存在，则将request添加入队列并将指纹加入集合。

怎样防止中断？
在爬取的过程中，难免会有某台机子卡掉了，这时怎么办？
在每台从机scrapy启动时都会首先判断当前redis request队列是否为空。
如果不为空，则从队列中取得下一个request执行爬取。
如果为空，则重新开始开始爬取，第一台从机执行爬取想队列中添加request。

怎样实现该架构？
要做到：
维护request队列
对台从机调度reuqest
设置去重
链接redis

已经有了比较成熟的库scrapy-redis

scrapy-redis库实现了如上架构，改写了scrapy的调度器，队列等组件
利用它可以方便地实现scrapy分布式架构
https://github.com/rolando/scrapy-redis

scrapy分布式的几个重点问题的更多相关文章

Python爬虫从入门到放弃（二十）之 Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...
Python爬虫【五】Scrapy分布式原理笔记
Scrapy单机架构在这里scrapy的核心是scrapy引擎,它通过里面的一个调度器来调度一个request的队列,将request发给downloader,然后来执行request请求但是这些 ...
第三百五十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点
第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点 1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题
Python 爬虫之 Scrapy 分布式原理以及部署
Scrapy分布式原理关于Scrapy工作流程 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享 ...
scrapy分布式原理
scrapy分布式原理关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键 ...
爬虫（十七）：scrapy分布式原理
一:scrapy工作流程 scrapy单机架构: 单主机爬虫架构: 分布式爬虫架构: 这里重要的就是我的队列通过什么维护?这里一般我们通过Redis为维护,Redis,非关系型数据库,Key-Valu ...
Python之爬虫（二十二） Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...
scrapy分布式浅谈+京东示例
scrapy分布式浅谈+京东示例: 学习目标: 分布式概念与使用场景浅谈去重浅谈断点续爬分布式爬虫编写流程基于scrapy_redis的分布式爬虫(阳关院务与京东图书案例) 环境准备: 下载r ...
Scrapy分布式爬虫，分布式队列和布隆过滤器，一分钟搞定？
使用Scrapy开发一个分布式爬虫?你知道最快的方法是什么吗?一分钟真的能开发好或者修改出一个分布式爬虫吗? 话不多说,先让我们看看怎么实践,再详细聊聊细节~ 快速上手 Step 0: 首先安装 ...

随机推荐

es6 Generator生成器函数
生成器函数使用function*声明. 在生成器函数内部,有一种类似return的语法:关键字yield.二者的区别是,普通函数只可以return一次,而生成器函数可以yield多次(当然也可以只yi ...
解析xml文件的四种方式
什么是 XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 标签没 ...
python安装第三方库
在编写爬虫程序时发现unsolved import 一时不解,以为是ide出问题了,其实是没有安装第三方库导致的. 于是到https://pypi.python.org/pypi/requests/去 ...
LeetCode --> 771. Jewels and Stones
Jewels and Stones You're given strings J representing the types of stones that are jewels, and S rep ...
c++ --> 返回值分析
返回值分析函数不能通过返回指向栈内存的指针,返回指向堆内存的指针是可以的. 一.返回局部变量的值可以有两种情况:返回局部自动变量和局部静态变量,比如: int func() { ; // 返回局部 ...
Algorithm --> 矩阵链乘法
动态规划--矩阵链乘法 1.矩阵乘法 Note:只有当矩阵A的列数与矩阵B的行数相等时A×B才有意义.一个m×r的矩阵A左乘一个r×n的矩阵B,会得到一个m×n的矩阵C. #include ...
Lucene 4.4.0中常用的几个分词器
一.WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理.很明显这个实用英文,单词之间用空格. 二.SimpleAnalyzer 以非字母符来分割文本信息,并将语汇 ...
(转)SQLite内置函数
一.聚合函数: SQLite中支持的聚合函数在很多其他的关系型数据库中也同样支持,因此我们这里将只是给出每个聚集函数的简要说明,而不在给出更多的示例了.这里还需要进一步说明的是,对于所有聚合函数而言, ...
转载---SuperMap GIS 9D SP1学习视频播单
转自:http://blog.csdn.net/supermapsupport/article/details/79219102 SuperMap GIS 9D SP1学习视频播单我们一直在思考什么 ...
DirectSound---捕获音频、Qml/C++ 集成交互
DirectSound的音频捕获原理和播放原理差不多,内部在一个缓冲区上循环写入捕获到的数据,并且提供notify通知功能. 1. 音频捕获因为捕获流程和播放流程类似,我们就不在这里赘述了,只给出简 ...

scrapy分布式的几个重点问题

scrapy分布式的几个重点问题的更多相关文章

随机推荐

热门专题