scrapy mid中间件一般处理方法

import user_agent

import requests

class UA_midd(object):

    def process_request(self,request,spider):

        request.headers['User-Agent'] = user_agent.generate_user_agent()

        referer = request.url

        if referer:

            request.headers['Referer'] = referer

class Proxy_midd(object):

    def __init__(self):

        self.ip = ''

        self.url = 'http://188.131.212.24:5010/get/'

        self.count = 0

    def process_request(self, request, spider):

        if self.count == 0 or self.count >=20:

            res = requests.get(url=self.url).content.decode()

            if not 'no' in res:

                self.ip = res

            self.count = 1

        if self.ip:

            request.meta['proxy'] = 'http://' + self.ip

            self.count += 1

        else:

            self.count += 5

    def process_exception(self, request, exception, spider):

        if isinstance(request,TimeoutError):

            self.count += 20

            return request

单纯的处理ua和ip的功能

# 如果你是通过cookies池进行维护的,请请求不过是的cokies

# 注意在中间件中设置cookies是字典化的

import json

import requests

class cookies_mid(object):

        def __init__(self):

            slef.cookies_url = '你维护的cookies池'

        def process_request(self,request,spider):

            request.cookies = self.get_cookies()                        

        def get_cookies(self):

            cookies = requests.get(self.cookies_url).content.decode()

            if cookies:

                return json.loads(cookies)

cookies更换

有关资料 https://blog.csdn.net/sc_lilei/article/details/80702449

scrapy mid中间件一般处理方法的更多相关文章

Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
彻底搞懂Scrapy的中间件（三）
在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用. 爬虫中间件爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同.下载器中间 ...
彻底搞懂Scrapy的中间件（一）
中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. "中间件"这个中文名字和前面章节讲到 ...
scrapy之中间件
中间件的简介 1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http ...
scrapy的中间件Downloader Middleware实现User-Agent随机切换
scrapy的中间件Download Middleware实现User-Agent随机切换总架构理解Middleware 通过scrapy官网最新的架构图来理解: 从图中我们可以看出,在spid ...
scrapy下载中间件结合selenium抓取全国空气质量检测数据
1.所需知识补充 1.下载中间件常用函数 process_request(self, request, spider): 当每个request通过下载中间件是,该方法被调用 process_reque ...
Scrapy的中间件（一）
中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. "中间件"这个中文名字和前面章节讲到 ...
Scrapy的中间件（二）
爬虫中间件爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同.下载器中间件的作用对象是请求request和返回response:爬虫中间件的作用对象是爬虫,更具体地来说,就是写在spid ...
爬虫（十四）：scrapy下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...

随机推荐

CMOS
CMOS是Complementary Metal Oxide Semiconductor(互补金属氧化物半导体)的缩写.它是指制造大规模集成电路芯片用的一种技术或用这种技术制造出来的芯片,是电脑主板上 ...
Javascript面试题&知识点汇总
问题&答案什么时候 a ==1 && a== 2 && a==3 为 true? var a = { i: 1, toString: function () ...
SHELL用法八（Grep语句）
1.SHELL编程Grep语句案例实战 1)Find是Linux操作系统文件和目录的路径检索.查询工具,而Grep是Linux系统下文本文件内容检索或者匹配工具,Grep称为全局正则表达式检索工具,在 ...
hadoop创建两大错误：Bad connection to FS. command aborted. exception和Shutting down NameNode at hadoop
1.问题目录表: Error代码 failed on connection exception: java.net.ConnectException: Connection refused 3. ...
使用Spring AOP 实现日志管理(简单教程)
有时候,我们在做项目时会遇到这样的需求: 给XXX.java中的所有方法加上指定格式的日志输出. 针对这种指定类.或者指定方法进行共性操作的功能,我们完全可以使用Spring AOP来实现. 本文使用 ...
mysql--sql_mode报错整理
1.在5.7版本以上mysql中使用group by语句进行分组时, 如果select的字段 , 不是完全对应的group by后面的字段 , 有其他字段 , 那么就会报这个错误 ERROR 1055 ...
如何用js判断一个对象是不是Array
.如何用js判断一个对象是不是Array 1.Array.isArray(obj) 调用数组的isArray方法 2.obj instanceof Array 判断对象是否是Array的实例 3.Ob ...
Web自动化测试平台设计与落地-概览
引言自动化金字塔-灵魂手绘版关于Web自动化测试,投入产出比是一个绕不开的话题,对于走到2017年的测试人,这时候可能已经有很多人会想到著名的自动化测试金字塔.它形象地展示了Mike Cohn对自 ...
Git学习小结 ~ Lethe's Blog
学习自https://www.liaoxuefeng.com/wiki/896043488029600 一.创建版本库 (1) git init 初始化一个Git仓库 (2)添加文件到Git仓库,分两 ...
OpenSSL编程之摘要
说明: 数字摘要是将任意长度的消息变成固定长度的短消息,它类似于一个自变量是消息的函数,也就是Hash函数.数字摘要就是采用单向Hash函数将需要加密的明文“摘要”成一串固定长度(128位)的密文这一 ...

scrapy mid中间件一般处理方法

scrapy mid中间件一般处理方法的更多相关文章

随机推荐

热门专题