scrapy extention实战

1. 空闲-关闭

使用扩展+spider_idle信号关闭爬虫。

启用扩展：settings.py

EXTENSIONS = {
#'scrapy.extensions.telnet.TelnetConsole':
None,
'extention_my.RedisSpiderSmartIdleClosedExensions': 300,
}

额外配置参数：conf.py

MYEXT_ENABLED = True
IDLE_NUMBER = 5

扩展类：

extention_my.py

#coding:utf-8

"""
----------------------------------------
description:

author: sss

date:
----------------------------------------
change:

----------------------------------------

"""
__author__ = 'sss'

import time
from scrapy import signals
from scrapy.exceptions import NotConfigured

from utils.mylogger import mylogger

logger_c = mylogger(__name__)
logger_m = logger_c.logger

class RedisSpiderSmartIdleClosedExensions(object):

def __init__(self,
idle_number, crawler):
        self.crawler
= crawler
        self.idle_number
= idle_number
        self.idle_list
= []
        self.idle_count
= 0

@classmethod
    def from_crawler(cls,
crawler):
        # 首先检查是否应该启用和提高扩展
        # 否则不配置
        from conf import MYEXT_ENABLED
        if not MYEXT_ENABLED:
            raise NotConfigured

# 获取配置中的时间片个数，默认为360个，30分钟
from conf import IDLE_NUMBER
as idle_number

# 实例化扩展对象
ext = cls(idle_number,
crawler)

# 将扩展对象连接到信号，将signals.spider_idle 与 spider_idle() 方法关联起来。
        crawler.signals.connect(ext.spider_opened,
signal=signals.spider_opened)

crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.spider_idle,
signal=signals.spider_idle)

# return the
extension object
return ext

def spider_opened(self,
spider):
logger_m.info("opened
spider %s redis spider Idle, Continuous idle limit：
%d", spider.name, self.idle_number)

def spider_closed(self,
spider):
logger_m.info("closed
spider %s, idle count %d , Continuous idle count %d",
spider.name, self.idle_count,
len(self.idle_list))

def spider_idle(self,
spider):
        self.idle_count
+= 1 # 空闲计数
        self.idle_list.append(time.time()) # 每次触发 spider_idle时，记录下触发时间戳
        idle_list_len
= len(self.idle_list) # 获取当前已经连续触发的次数
        print(self.idle_number,
self.idle_count, self.idle_list)

# 判断当前触发时间与上次触发时间之间的间隔是否大于5秒，如果大于5秒，说明redis 中还有key
if idle_list_len
> 2 and self.idle_list[-1] - self.idle_list[-2] > 6:
self.idle_list
= [self.idle_list[-1]]

elif idle_list_len
> self.idle_number:
            # 连续触发的次数达到配置次数后关闭爬虫
            logger_m.info('\n continued
idle number exceed {} Times'
                        '\n meet the
idle shutdown conditions, will close the reptile operation'
                        '\n idle
start time: {}, close spider time: {}'.format(self.idle_number,
                                                                                self.idle_list[0], self.idle_list[0]))
            # 执行关闭爬虫操作
            self.crawler.engine.close_spider(spider,
'closespider_pagecount')

其它没有什么，主要是判断是否关闭条件的设计。

scrapy extention实战-空闲时关闭爬虫的更多相关文章

scrapy主动触发关闭爬虫
在spider中时在方法里直接写 self.crawler.engine.close_spider(self, 'cookie失效关闭爬虫') 在pipeline和downloaderMiddle ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
执行时关闭标识位 FD_CLOEXEC 的作用
首先先回顾 apue 中对它的描述: ① 表示描述符在通过一个 exec 时仍保持有效(书P63,3.14节 fcntl 函数,在讲 F_DUPFD 时顺便提到) ② 对打开文件的处理与每个描述符的执 ...
Android退出时关闭所有Activity的方法
Android退出时,有的Activity可能没有被关闭.为了在Android退出时关闭所有的Activity,设计了以下的类: //关闭Activity的类 public class CloseAc ...
VS2015 调试中断点突然失效的解决办法、VS调试时关闭调试让浏览器继续保留页面
VS2010 调试中断点突然失效的解决办法问题描述:在调试前加了断点,但debug时红色的断点变成透明的圆圈加一个感叹号,执行到该处时也不会停止. 这个问题遇到过几次了,前几次都没怎么注意,有时候是 ...
VC被控制时关闭极域电子教室、破解联想硬盘保护系统密码（上）
<[原]关于VC运行时关闭极域电子教室的改进方法> 本文将讲资料和方法,具体实现和破解联想硬盘保护系统密码在(下)中,有关破解联想硬盘保护系统(删除它)的方法很简单,用硬盘保护卡克星就可以 ...
jq自定义下拉菜单，当用户点击非自身元素（下拉菜单）本身时关闭下拉菜单
jq自定义下拉菜单,当用户点击非自身元素(下拉菜单)本身时关闭下拉菜单截图: 代码如下: //关闭用户菜单 $(document).mousedown(function(e){ var _con = ...
CPU 空闲时在干嘛？
人在空闲时会发呆会无聊,计算机呢? 假设你正在用计算机浏览网页,当网页加载完成后你开始阅读,此时你没有移动鼠标,没有敲击键盘,也没有网络通信,那么你的计算机此时在干嘛? 有的同学可能会觉得这个问题很简 ...
scrapy使用response.body时编码问题
scrapy使用response.body时编码问题摘要:scrapy使用response.body时编码问题.如果在使用responses.body获取数据时,需要将其编码转换成unicode,即 ...

随机推荐

Codeforces Round #624 (Div. 3) A. Add Odd or Subtract Even（水题）
You are given two positive integers aa and bb . In one move, you can change aa in the following way: ...
Java - Test - TestNG: testng.xml 简介
1. 概述简介 testng.xml 中的格式, 元素 2. 背景 testng.xml 概述测试套件的配置文件问题一下生成了那么多内容我有点看不懂一上来就看不懂, 其实很正常, 慢慢说 ...
idea2019.2激活至2089年！
上图! 激活到2089年8月,绝对够用! 注意:在激活之前,无需改动 host 文件. 资料自取:链接:https://pan.baidu.com/s/1MzX5ewt6lbzHYuggP5sGE ...
document删除元素(节点)
不需要获取父id:document.getElementById("id").parentNode.removeChild(document.getElementById(&quo ...
消息队列（五）--- RocketMQ-消息存储1
问题 : 部署时如何知道自己是 broker 还是 NameServer topic 订阅信息放在哪里 broker 的作用到底是什么纪录是如何持久化的群发的时候,是如何储存消息的 send 方法 ...
分布式事务 --- BASE 理论
部分图片总结出自参考资料问题 : Base 理论为什么会被提出,动机是什么 Base 和 ACID 的区别与联系概述上一篇我们知道CAP 理论,也知道由于现实中网络等原因,分区容错性这一元素大多 ...
sockfd_to_family函数
#include <sys/socket.h> #include <netinet/in.h> #define SA struct sockaddr int sockfd_to ...
LLC半桥谐振变换器调试记录
1.判断二极管是否击穿 2.判断mos管是否烧坏直接用声音档,发出响声说明击穿了 3.测试二极管的正负极方法将万用表调到二极管档 1.信号发生芯片周围的电阻 2.反馈部分的电阻 3.实验准备部分: ...
QAction菜单行为
/*File*/ QAction* close_action_; /*File*/ QAction* close_action_;
WinForm开发(1)——DataGridView控件(1)——C# DataGridView控件用法介绍
DataGridView控件在实际应用中非常实用,特别需要表格显示数据时.可以静态绑定数据源,这样就自动为DataGridView控件添加相应的行.假如需要动态为DataGridView控件添加新行, ...

scrapy extention实战-空闲时关闭爬虫

scrapy extention实战

1. 空闲-关闭

scrapy extention实战-空闲时关闭爬虫的更多相关文章

随机推荐

热门专题