Scrapy下载器中间件用法示例

1.爬虫文件httpbin.py

# -*- coding: utf-8 -*-

import scrapy

class HttpbinSpider(scrapy.Spider):

    name = 'httpbin'

    allowed_domains = ['httpbin.org']

    start_urls = ['http://httpbin.org/get']

    def parse(self, response):

        self.logger.debug(response.text)

        self.logger.debug('Status Code: ' + str(response.status))

2.中间件文件middlewares.py

不在settings.py文件中设置请求头。而是在下载器中间件中，也就是在请求requests之前加上请求头

另外在response响应后更改状态码

import random

from scrapy import Request

class RandomUserAgentMiddleware():

    def __init__(self):

        self.user_agents = [

            'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)',

            'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2',

            'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1'

        ]

    def process_request(self, request, spider):

        request.headers['User-Agent'] = random.choice(self.user_agents)

    def process_response(self, request, response, spider):

        response.status = 201

        return response

3.配置文件settings.py

在配置文件中启用该配置

DOWNLOADER_MIDDLEWARES = {

   'scrapydownloadertest.middlewares.RandomUserAgentMiddleware': 543,

}

Scrapy下载器中间件用法示例的更多相关文章

scrapy 下载器中间件随机切换user-agent
下载器中间件如下列表 ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewa ...
Scrapy下载器中间件实现随机请求头和代理ip
一.设置随机请求头 class UAMiddleWare(object): UA_LIST = [ 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy入门到放弃04：下载器中间件，让爬虫更完美
前言 MiddleWare,顾名思义,中间件.主要处理请求(例如添加代理IP.添加请求头等)和处理响应本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件. MiddleWare分类 ...
爬虫（十四）：scrapy下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
scrapy下载中间件结合selenium抓取全国空气质量检测数据
1.所需知识补充 1.下载中间件常用函数 process_request(self, request, spider): 当每个request通过下载中间件是,该方法被调用 process_reque ...
scrapy下载中间件,UA池和代理池
一.下载中间件框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件. - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请 ...
Scrapy下载中间件的优先级（神踏马值越小优先级越高）
自从之前看的一篇讲Scrapy下载中间件的文章后,一直认为设置里下载中间件的优先级数值越小,越优先,最近要抓的网站反爬增强了,所以需要使用代理ip,但是由于使用的是免费代理以至于经常失效,需要对失效的 ...

随机推荐

HDOJ 题目5289 Assignment（RMQ，技巧）
Assignment Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total ...
Codeforces Round #327 (Div. 2) B. Rebranding 模拟
B. Rebranding The name of one small but proud corporation consists of n lowercase English letters. ...
IEC61131-3——数据类型
1. 摘要列出IEC61131-3支持的几种常用数据类型. 2. 内容使用USB-CAN接口卡调试从站,SDO发送使用的功能码与字节的关系如下. 2f表示8位,2b表示16位,23表示32位数据. ...
选择排序(2)——堆排序（heap sort）
前期概念: 二叉树完全二叉树左序遍历中序遍历右序遍历堆小根堆大根堆堆排序(Heapsort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种.可以利用数组的特点 ...
B2242 [SDOI2011]计算器
这个题就是把三个数论基础合在了一起,算是一道比较全面的题. 1的时候就是快速幂 2的时候是exgcd求逆元,特殊的,只有两数互质才有逆元. 3就是bsgs啦,还是不太熟题干: Description ...
consul备份还原导入导出
工作中要保证生产环境部署的consul的集群能够安全稳定地对外提供服务,即使出现系统故障也能快速恢复,这里将讲述部分的备份还原操作及KV的导入导出操作. 备份与还原需要备份的主要有两类数据:cons ...
E20171006-hm
trace vt. 跟踪,追踪; 追溯,探索; 探索; 查找; vi. 沿着一小径或道路前进; 可以追溯的; n. 痕迹; 痕迹,踪迹; 微量,极少量; [植 ...
Antenna Placement(二分图的最大匹配)
http://poj.org/problem?id=3020 题意: 一个矩形中,有N个城市'*',现在这n个城市都要覆盖无线,若放置一个基站,它至多可以覆盖相邻的两个城市.问至少放置多少个基站才能使 ...
IT架构师介绍-软件架构设计学习第一天（非原创）
文章大纲一.架构师定义二.架构师分类与具备能力三.研发人员发展的技术路线四.架构师知识体系五.参考文章一.架构师定义什么是架构师,这个聊架构话题时永恒的问题.每个公司对架构师的定位也有所 ...
python 学习笔记一（数据结构和算法）
2018年刚刚过完年,从今天起,做一个认真的技术人.开始进入记笔记阶段. python内置了很多数据结构,list , set,dictionary 1.将序列分解为单独的变量 1.1 通过赋值的方式 ...

Scrapy下载器中间件用法示例

Scrapy下载器中间件用法示例的更多相关文章

随机推荐

热门专题