Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫

首先解决爬虫等待，不被关闭的问题：

1、scrapy内部的信号系统会在爬虫耗尽内部队列中的request时，就会触发spider_idle信号。

2、爬虫的信号管理器收到spider_idle信号后，将调用注册spider_idle信号的处理器进行处理。

3、当该信号的所有处理器(handler)被调用后，如果spider仍然保持空闲状态，引擎将会关闭该spider。

scrapy-redis 中的解决方案在信号管理器上注册一个对应在spider_idle信号下的spider_idle()方法，当spider_idle触发是，信号管理器就会调用这个爬虫中的spider_idle()， Scrapy_redis 源码如下：

def spider_idle(self):

        """Schedules a request if available, otherwise waits."""

        # XXX: Handle a sentinel to close the spider.

        self.schedule_next_requests()    # 这里调用

        schedule_next_requests() 来从redis中生成新的请求

        raise DontCloseSpider              # 抛出不要关闭爬虫DontCloseSpider异常，保证爬虫活着

解决思路：

通过前面的了解，我们知道爬虫关闭的关键是 spider_idle 信号。
spider_idle信号只有在爬虫队列为空时才会被触发，触发间隔为5s。
那么我们也可以使用同样的方式，在信号管理器上注册一个对应在spider_idle信号下的spider_idle()方法。
在 spider_idle() 方法中，编写结束条件来结束爬虫，这里以判断redis 中关键key 是否为空，为条件

在settings.py 文件的目录下，创建一个名为 extensions.py 的文件，在其中写入以下代码

# -*- coding: utf-8 -*-

# Define here the models for your scraped Extensions

import logging

import time

from scrapy import signals

from scrapy.exceptions import NotConfigured

logger = logging.getLogger(__name__)

class RedisSpiderSmartIdleClosedExensions(object):

    def __init__(self, idle_number, crawler):

        self.crawler = crawler

        self.idle_number = idle_number

        self.idle_list = []

        self.idle_count = 0

    @classmethod

    def from_crawler(cls, crawler):

        # first check if the extension should be enabled and raise

        # NotConfigured otherwise

        if not crawler.settings.getbool('MYEXT_ENABLED'):

            raise NotConfigured

        # 配置仅仅支持RedisSpider

        if not 'redis_key' in crawler.spidercls.__dict__.keys():

            raise NotConfigured('Only supports RedisSpider')

        # get the number of items from settings

        idle_number = crawler.settings.getint('IDLE_NUMBER', 360)

        # instantiate the extension object

        ext = cls(idle_number, crawler)

        # connect the extension object to signals

        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

        crawler.signals.connect(ext.spider_idle, signal=signals.spider_idle)

        # return the extension object

        return ext

    def spider_opened(self, spider):

        logger.info("opened spider %s redis spider Idle, Continuous idle limit： %d", spider.name, self.idle_number)

    def spider_closed(self, spider):

        logger.info("closed spider %s, idle count %d , Continuous idle count %d",

                    spider.name, self.idle_count, len(self.idle_list))

    def spider_idle(self, spider):

        self.idle_count += 1

        self.idle_list.append(time.time())

        idle_list_len = len(self.idle_list)

        # 判断 redis 中是否存在关键key, 如果key 被用完，则key就会不存在

        if idle_list_len > 2 and spider.server.exists(spider.redis_key):

            self.idle_list = [self.idle_list[-1]]

        elif idle_list_len > self.idle_number:

            logger.info('\n continued idle number exceed {} Times'

                        '\n meet the idle shutdown conditions, will close the reptile operation'

                        '\n idle start time: {},  close spider time: {}'.format(self.idle_number,

                                                                              self.idle_list[0], self.idle_list[0]))

            # 执行关闭爬虫操作

            self.crawler.engine.close_spider(spider, 'closespider_pagecount')

在settings.py 中添加以下配置，请将 lianjia_ershoufang 替换为你的项目目录名。

MYEXT_ENABLED=True      # 开启扩展

IDLE_NUMBER=           # 配置空闲持续时间单位为 360个 ，一个时间单位为5s

# 在 EXTENSIONS 配置，激活扩展

'EXTENSIONS'= {

            'lianjia_ershoufang.extensions.RedisSpiderSmartIdleClosedExensions': ,

        },

MYEXT_ENABLED: 是否启用扩展，启用扩展为 True， 不启用为 False

IDLE_NUMBER: 关闭爬虫的持续空闲次数，持续空闲次数超过IDLE_NUMBER，爬虫会被关闭。默认为  ，也就是30分钟，一分钟12个时间单位

Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫的更多相关文章

解决 Scrapy-Redis 空跑问题，链接跑完后自动关闭爬虫
Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫问题:scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动 ...
实现Redis Cluster并实现Python链接集群
目录一.Redis Cluster简单介绍二.背景三.环境准备 3.1 主机环境 3.2 主机规划四.部署Redis 4.1 安装Redis软件 4.2 编辑Redis配置文件 4.3 启动R ...
ETL过程跑完后，使用python发送邮件
目标库中,如果有行数为0的表,使用python发送邮件 # -*- coding:utf-8 -*- # Author: zjc # Description:send monitor info to ...
appium 链接真机后，运行代码，但是APP并没有启动
要淡定,链接真机后,问题一下多出来这么多,还没有启动程序,就碰到接二连三的问题. 爽到家了.慢慢解决吧. 具体问题是这样的: # coding=utf-8from appium import webd ...
【week6】约跑App视频链接
约跑视频链接发布在优酷,链接如下: http://v.youku.com/v_show/id_XMTc3NTcyNTcyNA==.html 秒拍视频连接: http://www.miaopai.com ...
idea本地跑代码和链接开发机设置
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
Scrapy+redis实现分布式爬虫
概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群,然后在每一台电脑中执行同一组程序,让其对同一网络资源进行联合且分布的数据爬取. 原生Scrapy无法实现分布式的原因原生Scrapy中调度器 ...
关于2440的裸跑程序中SD卡读后不能成功写入问题的讨论
问题描述: TQ2440的官方裸跑程序中,对SD卡先进行读操作,然后再写,发现不能程序卡死.倘若对SD卡先写后读,程序可以正常运行,奇哉怪哉? 写数据的关键代码--> while(i < ...

随机推荐

转载：什么才是真正的 RESTful 架构
What? Wikipedia: 表征性状态传输(英文:Representational State Transfer,简称REST)是Roy Fielding博士于2000年在他的博士论文中提出来的 ...
exchange 普通用户可以创建通讯组
运维发现,通讯组多了好多未知名称的,经查为普通用户通过owa新建的,怎么阻止用户新建通讯组呢. 在搭建exchange后,系统会自动创建一个“Default Role Assignment Polic ...
Java学习---传输安全设计
1．计算机安全的概念用于保护数据和阻止Hacker的工具统称为计算机安全(Computer Security).信息安全最基本的方法就是利用加密信息防止未授权的人窃听,加密是以某种特殊的算法改变原有 ...
DRAM（动态）存储器
一.DRAM的存储元电路常见的DRAM存储元电路有四管式和单管式两种,它们的共同特点是靠电容存储电荷的原理来存储信息.电容上存有足够多的电荷表示“1”,电容上无电荷表示“0”. 由于电容存储的电荷会 ...
itertools 迭代
itertools模块提供的全部是处理迭代功能的函数,它们的返回值不是list,而是Iterator,只有用for循环迭代的时候才真正计算. >>> import itertools ...
8个PHP数组面试题
1.写函数创建长度为10的数组,数组中的元素为递增的奇数,首项为1. 代码如下: <?php function arrsort($first,$length){ $arr = array(); ...
ZT 分智网博客 – 职场、面试技巧、职业规划
http://blog.fenzhi.com/archives/5148.html 分智网博客 – 职场.面试技巧.职业规划软件工程师职位薪酬最高的25家中国公司作者: 分智网日期: 2013 ...
JavaScript --- Set 集合结构详解
Set 对象允许你存储任何类型的唯一值,无论是原始值或者是对象引用. 1 const set1 = new Set([1, 2, 3, 4, 5]); 2 3 console.log(set1.has ...
topk两种解法
1.这个通过partition实现topk,时间复杂度是o(logn*logn),也就是0(n),但需要修改原数组的顺序下面这个代码本身有一些错误,并且throw excption会在牛客上报错 c ...
JDK（二）JDK1.8源码分析【排序】timsort
如无特殊说明,文中的代码均是JDK 1.8版本. 在JDK集合框架中描述过,JDK存储一组Object的集合框架是Collection.而针对Collection框架的一组操作集合体是Collecti ...

Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫

解决思路：

Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫的更多相关文章

随机推荐

热门专题