Scrapy学习-21-信号量

scrapy信号量

定义

　　Scrapy使用信号来通知事情发生。您可以在您的Scrapy项目中捕捉一些信号(使用 extension)来完成额外的工作或添加额外的功能，扩展Scrapy。

　　虽然信号提供了一些参数，不过处理函数不用接收所有的参数 - 信号分发机制(singal dispatching mechanism)仅仅提供处理器(handler)接受的参数。

　　您可以通过信号(Signals) API 来连接(或发送您自己的)信号

可用信号

engine_started      当Scrapy引擎启动爬取时发送该信号

engine_stopped      当Scrapy引擎停止时发送该信号(例如，爬取结束)

item_scraped        当item被爬取，并通过所有 Item Pipeline 后(没有被丢弃(dropped)，发送该信号

item_dropped        当item通过 Item Pipeline ，有些pipeline抛出 DropItem 异常，丢弃item时，该信号被发送

spider_closed       当某个spider被关闭时，该信号被发送。该信号可以用来释放每个spider在 spider_opened 时占用的资源

spider_opened       当spider开始爬取时发送该信号。该信号一般用来分配spider的资源，不过其也能做任何事

spider_idle         当spider进入空闲(idle)状态时该信号被发送

spider_error        当spider的回调函数产生错误时(例如，抛出异常)，该信号被发送

request_scheduled   当引擎调度一个 Request 对象用于下载时，该信号被发送

request_dropped     当一个请求，由引擎安排在稍后被下载时，被调度程序拒绝

response_received   当引擎从downloader获取到一个新的 Response 时发送该信号

response_downloaded 当一个 HTTPResponse 被下载时，由downloader发送该信号

信号量使用

import scrapy

from scrapy.xlib.pydispatch import dispatcher

from scrapy import signals

class JobboleSpider(scrapy.Spider):

    name = "jobbole"

    allowed_domains = ["blog.jobbole.com"]

    start_urls = ['http://blog.jobbole.com/all-posts/']

    handle_httpstatus_list = [404]

    def __init__(self, **kwargs):

        self.fail_urls = []

        dispatcher.connect(self.handle_spider_closed, signals.spider_closed)

    def handle_spider_closed(self, spider, reason):

        self.crawler.stats.set_value("failed_urls", ",".join(self.fail_urls))

    def parse(self, response):

        if response.status == 404:

            self.fail_urls.append(response.url)

            self.crawler.stats.inc_value("failed_url")

Scrapy学习-21-信号量的更多相关文章

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
Asp.NetCore源码学习[2-1]：日志
Asp.NetCore源码学习[2-1]:日志在一个系统中,日志是不可或缺的部分.对于.net而言有许多成熟的日志框架,包括Log4Net.NLog.Serilog 等等.你可以在系统中直接使用这些 ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
Scrapy学习篇（十一）之设置随机User-Agent
大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我 ...
转载一个不错的Scrapy学习博客笔记
背景: 最近在学习网络爬虫Scrapy,官网是 http://scrapy.org 官方描述:Scrapy is a fast high-level screen scraping and web c ...
Scrapy学习篇（九）之文件与图片下载
Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方 ...

随机推荐

visio画图ER图表和字段注释
最近年底属于验收的项目很多,大多数写文档中,数据库的设计ER图是比不可少的.下面记一下几个常用的用法.以下用的市visio版本为2007,由于菜单样式新版本可能有所不同,请对照相应功能进行操作! 1. ...
CMDB(资产管理系统) day1
运维自动化最重要的就是标准化一切自动化运维则支持以下功能: 1.OS的选择统一化,同一个项目使用同样的OS系统部署其所需要的各类软件.2.软件安装标准化,例如JAVA虚拟机,php,nginx,my ...
secureCRT中vim行号下划线问题
在vim中发现开启显示行号(set number)或语法高亮(syntax on)时,发现文档中很多地方都有下划线,对视觉产生极大干扰.开始还以为是vim的某个配置造成的,后来发现真正的元凶是secu ...
Android Shader渲染器：BitmapShader图片渲染
public class BitmapShader extends Shader BitmapShader, Shader家族的专门处理图片渲染的构造方法: public BitmapShade ...
WPF异步回调时回调函数如何获取异步函数产生的变量
有这么一个问题,WPF在使用异步回调的时候,回调函数需要用到异步函数里产生的一个变量,例如异步函数里查询数据库得到了一个DataTable,如何传递给回调函数呢? [方案一]使用全局变量很容易想到的 ...
C语言用一维数组打印杨辉三角（原:无意中想到）
本贴地址 ] = { }; a[] = , a[] = ; int i, j,m; ; i <= ; i++) //2-11 输出10行 { ; j > ; j--) //关键在这句,倒着 ...
洛谷P1067 多项式输出
题目链接:https://www.luogu.org/problemnew/show/P1067 这是一个纯模拟的小怪但是需要注意一些小细节: 1.首项为正没有+号. 2.所有项系数如果是一的话就省略 ...
矩阵儿快速幂 - POJ 3233 矩阵力量系列
不要管上面的标题的bug 那是幂的意思,不是力量... POJ 3233 Matrix Power Series 描述 Given a n × n matrix A and a positive in ...
IOS开发---菜鸟学习之路--（十）-实现新闻详细信息浏览页面
前面已经将了上下拉刷新实现了上下拉刷新后我们的第一级界面就做好,接下来我们就需要实现新闻详细信息浏览了我个人认为一般实现新闻详细页面的方法有两种(主要是数据源的不同导致了方法的不同) 第一种是本 ...
MD5碰撞
if ( $_POST['param1'] !==$_POST['param2'] && md5($_POST['param1']) === md5($_POST['param2']) ...

Scrapy学习-21-信号量

Scrapy学习-21-信号量的更多相关文章

随机推荐

热门专题