scrapy的扩展件extensions

extensions.py文件

# -*- coding: utf-8 -*-

# 该扩展会在以下事件时记录一条日志：

# spider被打开

# spider被关闭

# 爬取了特定数量的条目(items)



import logging

from collections import defaultdict

from scrapy import signals

from scrapy.exceptions import NotConfigured

from datetime import datetime

logger = logging.getLogger(__name__)

class SpiderOpenCloseLogging(object):

    def __init__(self, item_count):

        self.item_count = item_count

        self.items_scraped = 0

        self.items_dropped = 0

        self.stats = defaultdict(int)  # 默认是0   正常状态

        self.err_stats = defaultdict(int)  # 默认是0

        print("=="*20, 'Extension object created 扩展对象被创建')

    @classmethod

    def from_crawler(cls, crawler):

        # first check if the extension should be enabled and raise

        # NotConfigured otherwise

        # 关键：这里如果是False就直接放弃对象的创建了，在settings中写一个MYEXT_ENABLED，设置为True

        if not crawler.settings.getbool('MYEXT_ENABLED'):

            raise NotConfigured

        # get the number of items from settings

        # 默认每爬1000条才记录一次log，可以在settings中设置这个MYEXT_ITEMCOUNT数字

        item_count = crawler.settings.getint('MYEXT_ITEMCOUNT', 1000)

        # instantiate the extension object

        ext = cls(item_count)

        # connect the extension object to signals

        # 把ext.spider_opened这个函数绑定到signal=signals.spider_opened这个信号上，

        # 每当一个item对象被yield出来的时候，这个信号就会产生

        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

        # signals.item_scraped这个是主要的信号，前提是一个item被爬之后，并通过所有的Pipeline没有被drop掉

        crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)

        # 注册一个item_dropped信号，当item被drop之后这个信号会触发

        crawler.signals.connect(ext.item_dropped, signal=signals.item_dropped)

        # 注册一个ext.response_received

        crawler.signals.connect(ext.response_received, signal=signals.response_received)

        # return the extension object

        return ext

    def spider_opened(self, spider):

        # spider.log("opened spider %s" % spider.name)

        # 可以把spider.log替换成print

        print("opened spider %s" % spider.name)

    def spider_closed(self, spider):

        # spider.log("closed spider %s" % spider.name)

        # 可以把spider.log替换成print

        print("closed spider %s" % spider.name)

    def item_scraped(self, item, spider):

        self.items_scraped += 1

        if self.items_scraped % self.item_count == 0:

            # spider.log("scraped %d items" % self.items_scraped)

            # 可以把spider.log替换成print

            print("scraped %d items" % self.items_scraped)

    def item_dropped(self, item, spider, response, exception):

        self.items_dropped += 1

        if self.items_dropped % self.item_count == 0:

            # spider.log("scraped %d items" % self.items_scraped)

            print("dropped %d items" % self.items_dropped)

    def response_received(self, response, request, spider):  # 监控爬虫的健康情况

        # 统计当前这一分钟正确状态和错误状态的数量

        now = datetime.now().strftime('%Y%m%d%H%M')

        self.stats[now] += 1  # 正常状态+！

        if response.status in [401, 403, 404, 500, 501, 502]:

            self.err_stats[now] += 1  # 错误状态+1

        if self.err_stats[now] / float(self.stats[now]) > 0.2:  # 占比

            # 一般线上部署有warning信息会发邮件，有err信息会发短信

            # warning级别比err低，但是比info高

            logger.warning(f'received {self.stats[now]} response and {self.err_stats[now]} of them is not 200，{now}')

settings中配置文件

# Enable or disable extensions

# See https://docs.scrapy.org/en/latest/topics/extensions.html

MYEXT_ENABLED = True  # 使用自定义插件

MYEXT_ITEMCOUNT = 10  # 每爬10条打印一次或者记录一次日志

EXTENSIONS = {

   # 'scrapy.extensions.telnet.TelnetConsole': None,

   'qianmu.extensions.SpiderOpenCloseLogging': 1,

}

scrapy的扩展件extensions的更多相关文章

XAML实例教程系列 - 标记扩展(Markup Extensions) 六
XAML实例教程系列 - 标记扩展(Markup Extensions) 分类: Windows 8 Silverlight2012-06-21 13:00 1139人阅读评论(0) 收藏举报扩 ...
nginx+php+扩展件安装实践版
一.安装各种软件包 yum -y install wget git vim lrzsz unzip zip gcc make gd-devel bzip2 bzip2-devel libcurl li ...
swift学习笔记之-扩展（Extensions）
//扩展(Extensions) import UIKit /*扩展(Extensions):扩展就是为一个已有的类.结构体.枚举类型或者协议类型添加新功能.这包括在没有权限获取原始源代码的情况下扩 ...
16.AutoMapper 之可查询扩展(Queryable Extensions)
https://www.jianshu.com/p/4b23e94a7825 可查询扩展(Queryable Extensions) 当在像NHibernate或者Entity Framework之类 ...
MySQL索引扩展(Index Extensions)学习总结
MySQL InnoDB的二级索引(Secondary Index)会自动补齐主键,将主键列追加到二级索引列后面.详细一点来说,InnoDB的二级索引(Secondary Index)除了存储索引列k ...
Welcome-to-Swift-20扩展（Extensions）
扩展就是向一个已有的类.结构体或枚举类型添加新功能(functionality).这包括在没有权限获取原始源代码的情况下扩展类型的能力(即逆向建模).扩展和 Objective-C 中的分类(cate ...
类别(Category)与扩展(Extensions)
一.类别(Category) 类别(Category)是一种可以为现有的类(包括类簇:NSString...,甚至源码无法获得的类)添加新方法的方式无需从现有的类继承子类.类别添加的新方法可以被子类继 ...
97、爬虫框架scrapy
本篇导航: 介绍与安装命令行工具项目结构以及爬虫应用简介 Spiders 其它介绍爬取亚马逊商品信息一.介绍与安装 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

在python的web框架Django中使用SQL Server
在pycharm中安装安装pyodbc和Django——pyodbc是一个用python写的ODBC引擎安装Django-pyodbc-azure 在后方网址中查 ...
百度AI技术
利用百度提供接口,实现智能语音语音合成 -- TTS(text to speech) 注册在 ai.baidu.com 页面中点击控制台 ,弹出登陆 / 注册页面创建应用登陆成功后,点击左侧 ...
[LC] 442. Find All Duplicates in an Array
Given an array of integers, 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others ...
Integer 中的缓存类 IntegerCache
我们先看一段代码: public class TestAutoBoxing { public static void main(String[] args) { //-128到127之间 Intege ...
baidumap 百度地图，实现多点之间的带方向路线图。
通过lastVisitAt判断时间先后. 通过三角函数验证角度再由baidumap 会制线段绘制三角箭头比较难看…… 测试个人因为框架引用baidu 有各种问题失败,为最快实现,以此页作一个独 ...
getcwd() 和 os.path.realpath () 的区别
http://lemfix.com/topics/7 getcwd()获取当前目录:其他文件调用时,会根据当前文件的位置获取目录,不同的文件调用,值是不一样的. os.path.realpath()获 ...
JVM笔记(一)
<ignore_js_op> Class Loader类加载器负责加载class文件,class文件在文件开头有特定的文件标识,并且ClassLoader只负责class文件的加载,至于它 ...
SpringMVC学习笔记二:参数接受
该项目用来介绍SpringMVC对参数接受的方法: 项目目录树:在前一个项目上修改添加新添加了Student类和Group类,用来测试整体参数接受 Student.java package com. ...
吴裕雄--天生自然 R语言开发学习：广义线性模型（续一）
#----------------------------------------------# # R in Action (2nd ed): Chapter 13 # # Generalized ...
Json格式化的实现（Jackson、Gson）
一.第一种(Jackson) 需要用到的jar包: https://pan.baidu.com/s/1wrkUwEoKpmqgmYPQSN-iZg package util; import com.f ...

scrapy的扩展件extensions

scrapy的扩展件extensions的更多相关文章

随机推荐

热门专题