downloader middleware作用:改写请求,如加入代理,加入头部等;处理异常等。

# downloadMiddleware举例, 加代理
# 这里的类如果已经重新设置名称,记得在settings里面开启的时候改成这个名称
class ProxyMiddleware(object):
# logging模块负责输出调试信息,记录程序错误等
logger = logging.getLogger(__name__) # process_request如果返回
# 1: 如果返回None, 则对整个环节没什么影响,会继续执行其他操作
# 2: 如果返回response,则不再调用其他中间键的process_request,而是直接调用process_response,直接处理该方法返回的response
# 3: 如果返回request,则把request重新放到调度队列,进行循环调用
# 4: 如果返回IgnoreRequest异常,则会启用异常处理方法 # 一:改写请求过程
# 对请求环节进行重写,这一切发生在请求之前,比如加一个头部或者代理,用来控制程序如何请求
# 处理request环节,如加代理
# def process_request(self, request, spider):
# self.logger.debug('Using proxy...')
# # 在这里即把一个键为proxy赋值给meta,meta相当于一个容器,在这里存放代理ip
# request.meta['proxy'] = 'http://61.52.157.66:53281'
#
# 二:改写结果
# process_response如果返回
# 1:如果返回response,对其他中间键没什么影响,其他会照常执行
# 2:如果返回Request,则会重新发起请求,加入到调度中心
# 3:如果返回IgnoreRequest exception,则会调用异常处理的方法 # 以下为处理response环节,比如改写response的状态码
def process_response(self, request, response, spider):
response.status_code = 201
return response # 三:异常处理
# process_exception异常处理
# 1: 如果返回None,则不影响其他操作,继续执行process_exception
# 2: 如果返回response,表明已经成功返回,那么就会执行其他中间键的process_response
# 3: 如果返回request,则把request重新加入到调度队列,可以利用这一点进行失败重试
def process_exception(self, request, exception, spider):
# 我们这里建立捕捉到异常后进行重新发起请求,记得 改settings里面的ROBOTSTXT_OBEY = False # 用self.logger输出调试信息,代表此时已经出错了
self.logger.debug('已经出错了')
self.logger.debug('开始尝试代理') # 这时将,request重新设置一下,传入meta的新代理地址,返回的全新的request会重新加入到队列进行请求
request.meta['proxy'] = 'http://1.255.53.81:80'
return request
#异常处理对应的spider
class GoogleSpider(scrapy.Spider):
name = "google"
allowed_domains = ["www.google.com"]
start_urls = ['http://www.google.com/'] # 我们还记得有了start_url, 默认是由start_request遍历start_urls列表,并且调用make_request_from_url,进行请求
# 这里重新写了make_request_from_url,里面的参数进行重新加载,设置如果超时时间为10秒,如果超出10秒,则会抛出异常
# 如果请求不到,终端会频繁打出retry,可以在settings里面禁止,设置方法为:'scrapy.downloadermiddlewares.retry.RetryMiddleware':None,
def make_requests_from_url(self, url):
self.logger.debug('第一次请求')
return scrapy.Request(url=url, meta={'download_timeout':10},callback=self.parse,dont_filter=True) def parse(self, response):
print(response.text)

Downloader Middleware的更多相关文章

  1. Python爬虫从入门到放弃(二十三)之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换

    总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...

  2. Scrapy学习篇(十)之下载器中间件(Downloader Middleware)

    下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...

  3. scrapy之 downloader middleware

    一. 功能说明 Downloader Middleware有三个核心的方法 process_request(request, spider) process_response(request, res ...

  4. 爬虫--Scrapy之Downloader Middleware

    下载器中间件(Downloader Middleware) 下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和respons ...

  5. Scrapy框架学习(三)Spider、Downloader Middleware、Spider Middleware、Item Pipeline的用法

    Spider有以下属性: Spider属性 name 爬虫名称,定义Spider名字的字符串,必须是唯一的.常见的命名方法是以爬取网站的域名来命名,比如爬取baidu.com,那就将Spider的名字 ...

  6. Scrapy框架——介绍、安装、命令行创建,启动、项目目录结构介绍、Spiders文件夹详解(包括去重规则)、Selectors解析页面、Items、pipelines(自定义pipeline)、下载中间件(Downloader Middleware)、爬虫中间件、信号

    一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...

  7. 小白学 Python 爬虫(36):爬虫框架 Scrapy 入门基础(四) Downloader Middleware

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 爬虫(十五):Scrapy框架(二) Selector、Spider、Downloader Middleware

    1. Scrapy框架 1.1 Selector的用法 我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...

  9. Python之爬虫(二十五) Scrapy的中间件Downloader Middleware实现User-Agent随机切换

    总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...

随机推荐

  1. Java枚举类使用

    用法一:常量 在JDK1.5 之前,我们定义常量都是: public static fianl.... .现在好了,有了枚举,可以把相关的常量分组到一个枚举类型里,而且枚举提供了比常量更多的方法. p ...

  2. 笔记:Hibernate 持久化类标注示例-双向1-N关系映射

    1-N关系的1端持久化类 package org.drsoft.hibernate.model.oneToMany;     import java.util.Date; import java.ut ...

  3. Vue解析四之注册变量

    判断监听的变量,如果undefined可以用$set来注册一个变量. 另外click可以是表达式,不一定必须是一个方法.

  4. 1833 深坑 TLE 求解

    题目描述: 大家知道,给出正整数n,则1到n这n个数可以构成n!种排列,把这些排列按照从小到大的顺序(字典顺序)列出,如n=3时,列出1 2 3,1 3 2,2 1 3,2 3 1,3 1 2,3 2 ...

  5. Docker 网络管理及容器跨主机通信

    1.网络模式 docker支持四种网络模式,使用--net选项指定: host,--net=host,如果指定此模式,容器将不会获得一个独立的network namespace,而是和宿主机共用一个. ...

  6. 10分钟快速入门Redis

    Redis安装 来源:https://github.com/jaywcjlove/handbook 官方编译安装 $ wget http://download.redis.io/releases/re ...

  7. 基于PLC-C#串口通讯,温度检测和转速监控的c#/.Net实现。

    我司为五金加工企业,其中有一条喷涂车间和流水线,客户要求能实时监控炉温温度.流水线速,并设置上下限值,达到上下限时报警. 开始考虑过USB的温度采集器,但是却没有找到带USB的光电开关,并且线路长度受 ...

  8. java性能调优---------------------JVM调优方案

    JVM的调优的主要过程有: 1.确定堆内存大小(-Xmx.-Xms) 2.合理分配新生代和老年代(-XX:NewRatio.-Xmn.-XX:SurvivorRatio) 3.确定永久区大小(-XX: ...

  9. Matlab绘图基础——绘制三维表面

    %绘制三维表面 ------------------------------------- %1.绘制线框图:mesh:每一条曲线称为mesh line %首先利用meshgrid函数产生平面区域内的 ...

  10. 以太坊开发DApp入门教程——区块链投票系统(一)

    概述 对初学者,首先要了解以太坊开发相关的基本概念.   学习以太坊开发的一般前序知识要求,最好对以下技术已经有一些基本了解: 一种面向对象的开发语言,例如:Python,Ruby,Java... 前 ...