scrapy 爬虫中间件 httperror中间件

源码

class HttpErrorMiddleware(object):

    @classmethod

    def from_crawler(cls, crawler):

        return cls(crawler.settings)

    def __init__(self, settings):

        self.handle_httpstatus_all = settings.getbool('HTTPERROR_ALLOW_ALL')

        self.handle_httpstatus_list = settings.getlist('HTTPERROR_ALLOWED_CODES')

    def process_spider_input(self, response, spider):

        if 200 <= response.status < 300:  # common case

            return

        meta = response.meta

        if 'handle_httpstatus_all' in meta:

            return

        if 'handle_httpstatus_list' in meta:

            allowed_statuses = meta['handle_httpstatus_list']

        elif self.handle_httpstatus_all:

            return

        else:

            allowed_statuses = getattr(spider, 'handle_httpstatus_list', self.handle_httpstatus_list)

        if response.status in allowed_statuses:

            return

        raise HttpError(response, 'Ignoring non-200 response')

    def process_spider_exception(self, response, exception, spider):

        if isinstance(exception, HttpError):

            spider.crawler.stats.inc_value('httperror/response_ignored_count')

            spider.crawler.stats.inc_value(

                'httperror/response_ignored_status_count/%s' % response.status

            )

            logger.info(

                "Ignoring response %(response)r: HTTP status code is not handled or not allowed",

                {'response': response}, extra={'spider': spider},

            )

            return []

通过源码 init函数可以看到可以配置两个配置

HTTPERROR_ALLOW_ALL = true

HTTPERROR_ALLOWED_CODES=[301,404]

第一个配置是否允许所有，就是收到响应后，不管什么状态码都返回给爬虫
第二个是允许的列表
以上是全局配置 不推荐

如果想在每个爬虫里面进行配置
可以在单独的爬虫里面设置

handle_httpstatus_all = true

handle_httpstatus_list = [404,302]

除非你非常熟悉你的网站和scrapy 不建议使用这些配置 ，因为把错误的响应也返回给爬虫，没什么用

scrapy 爬虫中间件 httperror中间件的更多相关文章

scrapy爬虫-代理IP中间件
class ProxyDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not de ...
python 全栈开发，Day138(scrapy框架的下载中间件,settings配置)
昨日内容拾遗打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price ...
scrapy框架4——下载中间件的使用
一.下载中间件下载中间件是scrapy提供用于用于在爬虫过程中可修改Request和Response,用于扩展scrapy的功能:比如: 可以在请求被Download之前,请求头部加上某些信息(例如 ...
scrapy框架之下载中间件
介绍中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. “中间件”这个中文名字和前面章节讲到的“中间人”只 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫框架介绍
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
Scrapy 爬虫
Scrapy 爬虫使用指南完全教程 scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name ...
scrapy爬虫框架setting模块解析
平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下. 模块相关说明信息 # -*- coding: ut ...

随机推荐

SDN实验---Ryu的应用开发（三）流量监控
一:实现流量监控 (一)流量监控原理其中控制器向交换机周期下发获取统计消息,请求交换机消息------是主动下发过程流速公式:是(t1时刻的流量-t0时刻的流量)/(t1-t0) 剩余带宽公式:链 ...
【SpringBoot】SpringBoot与Thymeleaf模版（六）
---恢复内容开始--- 模板引擎的思想模板是为了将显示与数据分离,模板技术多种多样,但其本质都是将模板文件和数据通过模板引擎生成最终的HTML代码. Thymeleaf介绍 Thymeleaf是适 ...
Superset配置impala数据源
1.安装impyla pip install impyla 2.在superset页面配置如下,此时impala是有kerberos认证的 impala://xxxx:xx/default?auth_ ...
【python基础】setproctitle的安装与使用
前言 setproctitle模块允许设置进程名称. 安装 pip install setproctitle 使用参考 1. setproctitle: 完
lnmp+discuz使用redis缓存（待进一步研究）
一直说Redis.Redis缓存.一直不清楚怎么用.于是花点时间研究了一下,但是还没搞懂.先把大概内容记录一下,待后续继续学习 1.首先部署lnmp环境,这个我的博客有些,请自行搜索 2.给php添加 ...
使用极光第三方IM的时候服务器报错Caused by: java.net.UnknownHostException: api.im.jpush.cn
Caused by: java.net.UnknownHostException: api.im.jpush.cn 服务器报这个:首先查看服务器是否能ping通,如果能ping通,则看下 vi /et ...
Netty学习-IO体系架构系统回顾 & 装饰模式Decorator的具体使用
Netty学习-IO体系架构系统回顾 IO和NIO的学习 NIO - 1.4 开始出的在网络应用框架中,NIO得到了大量的使用,特别是netty里面前提:对IO及其了解对IO的总结和回顾理解J ...
ThinkPHP3(命名空间、RBAC)
命名空间当开发大型项目的时候,可以会需要成千上万的文件面向对象通过命名空间来解决这个问题的. PHP命名空间是PHP5.3以后才出现的. 命名空间中可以出现:类,函数,常量只有const定义的常 ...
Java程序员经典面试题+答案（全）
这套面试题主要目的是帮助那些还没有java软件开发实际工作经验,而正在努力寻找java软件开发工作的朋友在笔试时更好地赢得笔试和面试. 关注公众号[Java典籍]免费赠送一套Java入门视频教程一套! ...
mysql慢查询及查询优化
mysql默认是没有开启慢查询的 1 查看慢查询的配置状态 show variables like 'slow_query%'; slow_query_log 慢查询开启状态 slow_query_l ...

scrapy 爬虫中间件 httperror中间件

scrapy 爬虫中间件 httperror中间件的更多相关文章

随机推荐

热门专题