scrapy-redis的搭建分布式爬虫去重

master：
一、spider文件
1.需要更改继承的类
from scrapy_redis.spiders import RedisSpider

2.注释掉start_urls

3.在爬虫目录下新创建一个redis_urls.py文件，放所有的URL到redis数据库的列表中

4.回到爬虫文件中，写一个redis_key = '列表的key'

二.settings.py文件

 1 #配置分布式的主要配置选项

 2 #1.配置调度器；

 3 SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

 4 #2.配置去重器

 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

 6 #3.配置调度队列

 7 SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.PriorityQueue'

 8 #4.配置redis主机名

 9 REDIS_HOST = 'localhost'

10 #5.配置redis端口号

11 REDIS_PORT = 6379

三.如果要解决scrapy-redis空跑问题
1.在项目目录下，新建一个extensions.py文件，写如下代码：

 1 import logging

 2

 3 from scrapy import signals

 4 from scrapy.exceptions import NotConfigured

 5

 6 logging = logging.getLogger(__name__)

 7

 8

 9 class RedisSpiderSmartIdleClosedExensions(object):

10

11 def __init__(self, idle_number, crawler):

12 self.crawler = crawler

13 self.idle_number = idle_number

14 self.idle_list = []

15 self.idle_count = 0

16

17 @classmethod

18 def from_crawler(cls, crawler):

19 # first check if the extension should be enabled and raise

20

21 # NotConfigured otherwise

22

23 if not crawler.settings.getbool('MYEXT_ENABLED'):

24 raise NotConfigured

25

26 if not 'redis_key' in crawler.spidercls.__dict__.keys():

27 raise NotConfigured('Only supports RedisSpider')

28

29 # get the number of items from settings

30

31 idle_number = crawler.settings.getint('IDLE_NUMBER', 360)

32

33 # instantiate the extension object

34

35 ext = cls(idle_number, crawler)

36

37 # connect the extension object to signals

38

39 crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

40

41 crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

42

43 crawler.signals.connect(ext.spider_idle, signal=signals.spider_idle)

44

45 return ext

46

47 def spider_opened(self, spider):

48 spider.logger.info("opened spider {}, Allow waiting time:{} second".format(spider.name, self.idle_number * 5))

49

50 def spider_closed(self, spider):

51 spider.logger.info(

52 "closed spider {}, Waiting time exceeded {} second".format(spider.name, self.idle_number * 5))

53

54 def spider_idle(self, spider):

55 # 程序启动的时候会调用这个方法一次，之后每隔5秒再请求一次

56 # 当持续半个小时都没有spider.redis_key，就关闭爬虫

57 # 判断是否存在 redis_key

58 if not spider.server.exists(spider.redis_key):

59 self.idle_count += 1

60 else:

61 self.idle_count = 0

62

63 if self.idle_count > self.idle_number:

64 # 执行关闭爬虫操作

65 self.crawler.engine.close_spider(spider, 'Waiting time exceeded')

2.打开settings.py文件中EXTENSIONS的注释，将Telent的注释掉，换上：
'项目名.extensions.RedisSpiderSmartIdleClosedExensions': 500,

3.配置settings.py文件：
# 开启扩展
MYEXT_ENABLED = True
# 每5秒就检测一次，检测10次（50秒），如果url还为空，那么就结束爬虫程序
IDLE_NUMBER = 10

slave配置：
前面都一样
需要删除redis_urls文件
settings.py的配置：

 1 #配置分布式的主要配置选项

 2 #1.配置调度器；

 3 SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

 4 #2.配置去重器

 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

 6 #3.配置调度队列

 7 SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.PriorityQueue'

 8 #4.配置redis主机名

 9 REDIS_HOST = 'master的IP'

10 #5.配置redis端口号

11 REDIS_PORT = 6379

12 ITEM_PIPELINES = {

13 'meishi.pipelines.MeishiPipeline': 300,

14 # 'scrapy_redis.pipelines.RedisPipeline': 301

15 }

如果存到master的MongoDB数据库，需要将host改成master的ip，数据库改成master的，集合也改成master的

master端和slave端的代码保持一致（改完master端代码后复制一份当成salve端的代码），slave端需要更改以下：
1. redis_urls.py删掉
2. MongoDB数据库的主机号改为master端的

注意：scrapy-redis存在空跑问题

开始连接：
尝试连接mongo：mongo --host masterIP --port 27017
尝试连接master的redis数据库：redis-cli -h masterIP
master的redis数据库配置文件需要做如下更改：
1.将bind 127.0.0.1 注释掉
2.将protected-mode yes 改为 protected-mode no

scrapy-redis的搭建分布式爬虫去重的更多相关文章

基于redis的简易分布式爬虫框架
代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
使用scrapy-redis搭建分布式爬虫环境
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取您可以启动多个spider工 ...
使用scrapy-redis 搭建分布式爬虫环境
scrapy-redis 简介 scrapy-redis 是 scrapy 框架基于 redis 数据库的组件,用于 scraoy 项目的分布式开发和部署. 有如下特征: 分布式爬取: 你可以启动多个 ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
使用Docker Swarm搭建分布式爬虫集群
https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653195618&idx=2&sn=b7e992da6bd1b2 ...
Python 用Redis简单实现分布式爬虫
Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接 ...
python3下scrapy爬虫(第十四卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行）
现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中现在我们需要在SETTING.PY设置我们的爬虫文件再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...

随机推荐

Ajax向服务器端发送请求
Ajax向服务器端发送请求 Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示文字下拉列表 Ajax运行原理 Ajax 相当于浏览器发送请求与接收响应的代 ...
JVM-运行时数据区之PC寄存器
1.运行时数据区图运行时数据区是在类加载完成后所经历的阶段,当我们通过前面的:类的加载 --> 验证 --> 准备 --> 解析 --> 初始化,这几个阶段完成后,执行引擎就 ...
Django 自定义表名和字段名
Django 自定义表名和字段名通过db_table和db_column自定义数据表名和字段名假如你的数据库里已经有了一张数据表,且该表包含多个字段,你希望通过Django直接访问该数据表的各个字 ...
ngx_lua模块
ngx_lua模块的原理: 1.每个worker(工作进程)创建一个Lua VM,worker内所有协程共享VM:2.将Nginx I/O原语封装后注入 Lua VM,允许Lua代码直接访问:3.每个 ...
CUDA 7 Stream流简化并发性
CUDA 7 Stream流简化并发性异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU .为此,应用程序必须在多个处理器上并发执行函数. CUDA 应用程序通过在 streams ...
编译器架构Compiler Architecture（下）
编译器架构Compiler Architecture(下) Combining Scanning and Parsing 实际上没有必要将扫描(词法分析/标记化)与解析(语法分析/树生成)分开.基于P ...
Git_远程仓库fork操作
fork操作:当选择 fork,相当于自己有了一份原项目的拷贝,当然这个拷贝只是针对当时的项目文件,如果后续原项目文件发生改变,你必须通过其他的方式去同步. 使用场景:一般来说,不需要使用 fork ...
python做。大神空闲时间能帮忙弄一串代码嘛？猜拳游戏，分很多种手的背面和正面，最后剩下的再石头剪刀布
.每天课程结束后,老师会选择一列的同学清扫教室,人数不定(建议根据当时情况输入),在收拾完教室后,最后一步是需要从这一列的同学中选择1-2人去倒垃圾桶,垃圾桶数量根据当时情况决定,目前采取的方式是, ...
从JDBC到ORM的事务实现
一.JDBC 早期SUN公司想编写一套可以连接天下所有数据库的API,但是当他们刚刚开始时就发现这是不可完成的任务,因为各个厂商的数据库服务器差异太大了.后来SUN开始与数据库厂商们讨论,最终得出的结 ...
pandas的数据结构介绍（一）—— Series
pandas两个主要数据结构之一--Series 类似于一维数组,由一组数据和与其相关的一组索引组成 obj = Series([4, 7, -5, 3], index=['d', 'b', 'a', ...

scrapy-redis的搭建 分布式爬虫 去重

scrapy-redis的搭建 分布式爬虫 去重的更多相关文章

随机推荐

热门专题

scrapy-redis的搭建分布式爬虫去重

scrapy-redis的搭建分布式爬虫去重的更多相关文章