Scrapy框架: 异常错误处理

import scrapy

from scrapy.spidermiddlewares.httperror import HttpError

from twisted.internet.error import DNSLookupError

from twisted.internet.error import TimeoutError, TCPTimedOutError

class ErrbackSpider(scrapy.Spider):

    name = "errback_example"

    start_urls = [

        "http://www.httpbin.org/",              	# 正常HTTP 200返回

        "http://www.httpbin.org/status/404",    	# 404 Not found error

        "http://www.httpbin.org/status/500",    	# 500服务器错误

        "http://www.httpbin.org:12345/",        	# 超时无响应错误

        "http://www.httphttpbinbin.org/",       	# DNS 错误

    ]

    def start_requests(self):

        for u in self.start_urls:

            yield scrapy.Request(u, callback=self.parse_httpbin,

                                    errback=self.errback_httpbin,

                                    dont_filter=True)

    def parse_httpbin(self, response):

        self.logger.info('Got successful response from {}'.format(response.url))

        # 其他处理.

    def errback_httpbin(self, failure):

        # 日志记录所有的异常信息

        self.logger.error(repr(failure))

        # 假设我们需要对指定的异常类型做处理，

        # 我们需要判断异常的类型

        if failure.check(HttpError):

            # HttpError由HttpErrorMiddleware中间件抛出

            # 可以接收到非200 状态码的Response

            response = failure.value.response

            self.logger.error('HttpError on %s', response.url)

        elif failure.check(DNSLookupError):

            # 此异常由请求Request抛出

            request = failure.request

            self.logger.error('DNSLookupError on %s', request.url)

        elif failure.check(TimeoutError, TCPTimedOutError):

            request = failure.request

            self.logger.error('TimeoutError on %s', request.url)

Scrapy框架: 异常错误处理的更多相关文章

怎么安装Scrapy框架以及安装时出现的一系列错误（win7 64位 python3 pycharm）
因为要学习爬虫,就打算安装Scrapy框架,以下是我安装该模块的步骤,适合于刚入门的小白: 一.打开pycharm,依次点击File---->setting---->Project---- ...
用于未处理异常错误的.NET框架清理工具
当你启动某些程序时,会收到与此错误类似的未处理异常错误:Unhandled e0434f4dh exception at 7c81eb33h.此问题是由于.NET框架未正确安装或.NET框架系统中的另 ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
解读Scrapy框架
Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...
scrapy框架使用教程
scrapy框架真的是很强大.非常值得学习一下.本身py就追求简洁,所以本身代码量很少却能写出很强大的功能.对比java来说.不过py的语法有些操蛋,比如没有智能提示.动态语言的通病.我也刚学习不到1 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
python 全栈开发，Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
爬虫之 scrapy框架
浏览目录介绍安装项目结构及爬虫应用简介常用命令行工具 Spiders爬虫 Selectors选择器 Item Pipeline 项目管道 Downloader Middleware下载中间件 ...

随机推荐

BUUCTF--reverse2
测试文件:https://buuoj.cn/files/ef0881fc76e5bcd756b554874ef99bec/e8722e94-93d7-45d5-aa06-a7aa26ce01a1.ra ...
20180305-Python中迭代器和生成器
一.迭代器迭代器是访问集合元素的一种方式.迭代器从访问到集合的第一个元素开始访问,直到所有元素被访问结束.而且迭代器只能往前访问,不能后退.另外迭代器的另一个优点,不会事先准备好访问的集合的所有元素 ...
R语言控制流
一般来说R语言是自上而下执行的,但是遇到特殊情况可能用到循环执行某些语句,这时候条件运算和循环就能派上用场了.
smbumount - 为普通用户卸载smb文件系统
总览 smbumount 装载点描述普通用户使用这个程序可以卸载smb文件系统.它在工作时会suid到root身份,并且向普通linux用户提供了对资源更多的控制能力.在suid方面,它拥有足够的 ...
使用MyEclipse创建Servlet
https://www.yiibai.com/servlet/creating-servlet-in-myeclipse-ide.html 如何在myeclipse IDE中创建Servlet? 要在 ...
后缀自动机(SAM) 学习笔记
最近学了SAM已经SAM的比较简单的应用,SAM确实不好理解呀,记录一下. 这里提一下后缀自动机比较重要的性质: 1,SAM的点数和边数都是O(n)级别的,但是空间开两倍. 2,SAM每个结点代表一个 ...
CS184.1X 计算机图形学导论（第三讲）
第一单元(介绍关于变换的数学知识) :基本二维变换模型坐标系,世界坐标系 1.缩放 Scale(规模,比例) Sx表示在x方向上放大的倍数,Sy表示在y方向上放大的倍数,因此X坐标乘以Sx,Y坐标乘 ...
Vue-列表渲染非变异方法
变异方法 (mutation method),顾名思义,会改变被这些方法调用的原始数组.相比之下,也有非变异 (non-mutating method) 方法,例如:filter(), concat( ...
CentOS7.5 开启Samba服务
安装 yum install samba 其依赖关系包samba-client samba-common会自动安装上去查看状态 service smb status 重启服务systemctl re ...
grep正则表达式（二）
任意字符(The Any Character) dot or period character: "." grep -h '.zip' dirlist*.txt ".&q ...

Scrapy框架: 异常错误处理

Scrapy框架: 异常错误处理的更多相关文章

随机推荐

热门专题