介绍

Scrapy框架不支持分布式，所以需要将一些关键代码进行修改使之支持分布式。scrapy-redis相当于一个插件，用来替换scrapy中的一些模块，使得scrapy支持分布式。github地址： https://github.com/darkrho/scrapy-redis

redis

redis是一个可基于内存，亦可持久化的key-value数据库，特点是速度快。

原理

在scrapy框架中加入scrapy-redis模块，目的在于将scrapy中的schedule模块替换为scrapy-redis模块。在scrapy-redis中，基于redis数据库构建request队列，所有的爬虫都可以从该redis数据库中获取request，并且所有爬虫产生的request都会送入该redis中。基于此原理实现分布式爬虫功能。

改进

在scrapy-redis中有url判重功能，减少重复爬取。但是其实现比较粗糙，所以可以自定义一个url去重功能，例如使用bloom filter算法。可以基于redis实现bloom filter算法，既实现了快速判重功能，又能节省内存。此外，可以充分利用redis数据库速度快且可持久化的特点，实现item过滤等等。

Reference

【Bloom Filter原理】

http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

http://blog.csdn.net/bone_ace/article/details/53107018

【Bloom Filter python实现】

http://blog.csdn.net/bone_ace/article/details/53107018

【scrapy-redis去重优化】

http://blog.csdn.net/bone_ace/article/details/53099042

https://github.com/LiuXingMing/Scrapy_Redis_Bloomfilter

【scrapy-redis种子优化】

http://blog.csdn.net/Bone_ACE/article/details/53306629

【利用redis实现item去重】

https://www.jianshu.com/p/f03479b9222d

https://www.jianshu.com/p/7b6c1754ee73

【yinzm的个人项目：完整的分布式爬虫】

https://github.com/yinzm/XueqiuCrawler

利用scrapy_redis实现分布式爬虫的更多相关文章

scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
三十六 Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块 scrapy-redis的依赖 Python 2.7, 3.4 or 3.5,Python支持版本 Redis & ...
scrapy_redis分布式爬虫
文章来源:https://github.com/rmax/scrapy-redis Scrapy-Redis Documentation: https://scrapy-redis.readthedo ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫
原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
python 全栈开发，Day140(RabbitMQ,基于scrapy-redis实现分布式爬虫)
一.RabbitMQ 队列在生产者消费模型中,比如去餐馆吃饭的例子.生产者相当于厨师,队列相当于服务员,消费者就是你. 我们必须通过服务员,才能吃饭! 如果队列满了,队列会一直hold住.必须让消费 ...

随机推荐

Php的常见错误及错误分析
我们在进行开发工作的时候,难免会遇到PHP的报错,解决这些错误,也是作为PHPer必须掌握的一种技能. 如果程序发生错误,我们能大致的分析出出现错误的原因,对于我们解决这戏错误会有很大的帮助. Not ...
python 翻转棋（othello）
利用上一篇的框架,再写了个翻转棋的程序,为了调试minimax算法,花了两天的时间. 几点改进说明: 拆分成四个文件:board.py,player.py,ai.py,othello.py.使得整个结 ...
RabbitMQ 汇总
<RabbitMQ Tutorial>译文第 1 章简介 <RabbitMQ Tutorial>译文第 2 章工作队列 <RabbitMQ Tutorial> ...
md5加密，同样的代码得到不同的加密结果（已解决）
场景: 开发环境(windows下)调用第三方接口验签通过,发测试环境(linux下)后死活验签通过不了原因: md5是一项成熟的加密技术,问题应该在代码里,查了查感觉可能是字符编码的问题,导致加签 ...
[BZOJ3809]Gty的二逼妹子序列[莫队+分块]
题意给出长度为 \(n\) 的序列,\(m\) 次询问,每次给出 \(l,r,a,b\) ,表示询问区间 \([l,r]\) 中,权值在 \([a,b]\) 范围的数的种类数. \(n\leq 10 ...
SpringCloud+Boot简单例子笔记
一.spring cloud简介 spring cloud 为开发人员提供了快速构建分布式系统的一些工具,包括配置管理.服务发现.断路器.路由.微代理.事件总线.全局锁.决策竞选.分布式会话等等.它运 ...
EOS开发基础之一：源代码下载与开发环境搭建
区块链最近挺火的,我又是个非常缺钱的人,所以紧跟了潮流一头扎进区块链的研究中. 这EOS项目是目前比较火的一个项目,相信很多朋友拿到这份EOS的源代码后都会一脸懵逼,因为……这代码写得太高级了,老纸看 ...
mysql学习（1）
开始我们基础的mysql学习第一部分:补充知识 1. 昨天讲到的mysql初始化密码为空,今天又get到一种新的方法 Mysql安装后需要做的 Mysql安装成功后,默认的root用户密码为空,你可 ...
PAT甲题题解-1108. Finding Average (20)-字符串处理
求给出数的平均数,当然有些是不符合格式的,要输出该数不是合法的. 这里我写了函数来判断是否符合题目要求的数字,有点麻烦. #include <iostream> #include < ...
HTTP 和 HTTPS 直观上看哪里不一样了
1. 我在自己搭建的 HTTP 网站上进行登陆测试填写账号和密码,账号:123456 ,密码:654321 (当然是乱填的,只为了看传输数据) 点击登录,用wireshark抓包看看传输的数据 2. ...

利用scrapy_redis实现分布式爬虫

介绍

redis

原理

改进

Reference

利用scrapy_redis实现分布式爬虫的更多相关文章

随机推荐

热门专题