scrapy中间件

一、下载中间件

from scrapy import signals

from scrapy.http import Response

from scrapy.exceptions import IgnoreRequest

from AMAZON.proxy_handle import get_proxy,delete_proxy

# print('eeeeeeeeeeee',get_proxy())

class DownMiddleware1(object):

    def process_request(self, request, spider):

        """

        请求需要被下载时，经过所有下载器中间件的process_request调用

        :param request:

        :param spider:

        :return:

            None,继续后续中间件去下载；

            Response对象，停止process_request的执行，开始执行process_response

            Request对象，停止中间件的执行，将Request重新调度器

            raise IgnoreRequest异常，停止process_request的执行，开始执行process_exception

        """

        # spider.name

        print('下载中间件1')

        print('gggggggggggggggggggg',get_proxy())

        # request.meta['proxy']='http://user:pwd@ip:port'

        request.meta['download_timeout']=10

        request.meta['proxy']='http://'+get_proxy()

        print(request.meta)

        # return Response('http://www.xxx.com')

        # print(request.dont_filter)

        # return request

        # raise IgnoreRequest

        # raise TimeoutError

    def process_response(self, request, response, spider):

        """

        spider处理完成，返回时调用

        :param response:

        :param result:

        :param spider:

        :return:

            Response 对象：转交给其他中间件process_response

            Request 对象：停止中间件，request会被重新调度下载

            raise IgnoreRequest 异常：调用Request.errback

        """

        print('response1')

        return response

    def process_exception(self, request, exception, spider):

        """

        当下载处理器(download handler)或 process_request() (下载中间件)抛出异常

        :param response:

        :param exception:

        :param spider:

        :return:

            None：继续交给后续中间件处理异常；

            Response对象：停止后续process_exception方法

            Request对象：停止中间件，request将会被重新调用下载

        """

        print('异常1')

        # return None

        # 删旧代理 delelte request.meta['proxy']

        old_proxy=request.meta['proxy'].split("//")[-1]

        print('oooooooooooo',old_proxy)

        delete_proxy(old_proxy)

        request.meta['proxy']='http://'+get_proxy()

        return request

scrapy中间件的更多相关文章

scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
Scrapy中间件user-agent和ip代理使用
一.定义实现随机User-Agent的下载中间件 1.在middlewares.py中完善代码 import random from Tencent.settings import USER_AGEN ...
scrapy 中间件
一.中间件的分类 scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种 1 ...
python爬虫常用之Scrapy 中间件
一.概述 1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求 ...
scrapy——中间件UserAgent代理
pip install fake-useragent 使用说明:from fake_useragent import UserAgent# 实例化一个UserAgent对象ua = UserAgent ...
scrapy中间件中发送邮件
背景介绍:之前写过通过通过scrapy的扩展发送邮件,在爬虫关闭的时候发送邮件.那个时候有个问题就是MailSender对象需要return出去.这次需要在中间件中发送邮件,但是中间件中不能随便使用r ...
爬虫 - Scrapy中间件
前提:看Scrapy架构图不管什么Middlewares,都写在middlewares.py里面. 然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MI ...
写一个scrapy中间件--ip代理池
middleware文件 # -*- coding: utf-8 -*- # Define here the models for your spider middleware # See docum ...
scrapy中间件之下载中间件使用（网易新闻爬取）
scrapy项目中的middlewarse.py中间件爬虫中间件:目前先不介绍下载中间件(需要在settings.py中开启) (1)请求处理函数:process_request(self, re ...

随机推荐

meter压力测试设置一秒发送一次请求，一秒两次请求
使用jmeter进行压力测试 ,测试情况有 1.一秒钟投1次请求(一个线程) 持续30分钟的情况 2.一秒钟发送2次请求(两个线程) 持续30分钟的情况下面说一下如何使用jmeter 测试这两种情 ...
Java接口自动化测试之TestNG测试报告ExtentReports的应用(三)
pom.xml导入包 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=" ...
Aws云服务EMR使用
Aws云服务EMR使用创建表结构创建abc库下的abc_user_i表字段s3://abc-server/abc-emr/shell/ABC_USER_HIVE.q: EXTERNAL 指定为外部 ...
CMD批处理——forfiles命令使用，自动删除过期备份文件
公司服务器用来备份数据的硬盘过段时间就会被备份文件占满,弄得我老是要登录到服务器去手工删除那些老的文件,有时忘记了就会导致硬盘空间不足而无法备份.因为只要保留最近几天的备份,如果可以做一个批处理让系统 ...
（6）.NET CORE微服务 Micro-Service ---- AOP框架
AOP 框架基础要求懂的知识:AOP.Filter.反射(Attribute). 如果直接使用 Polly,那么就会造成业务代码中混杂大量的业务无关代码.我们使用 AOP (如果不了解 AOP,请自 ...
【bzoj3589】动态树树链剖分+树链的并
题解: 树链剖分是显然的问题在于求树链的并比较简单的方法是用线段树打标记覆盖,查询标记区间大小 Qlog^2n 代码: #include <bits/stdc++.h> using ...
Mysql my.cnf配置文件记录
一.参数 1.max_binlog_size = 1G #binlog大小 2. #slave不需要同步数据库 binlog-ignore-db=information_schema bin ...
phpmyadmin详细的图文使用教程
做网站用到服务器有很多站长应该都会用到数据库,那么phpmyadmin的使用也会是很多新手站长头大的问题,下面小编详细介绍一下phpmyadmin详细的图文使用教程. 方法/步骤如何进入ph ...
window下用taskkill杀死进程
TASKKILL [/S system [/U username [/P [password]]]] { [/FI filter] [/PID processid | /IM imagename] } ...
一张图解析FastAdmin中的表格列表的功能
大图: 1.默认生成的CRUD是没有菜单名称和描述显示的,如果需要显示则可以在后台修改,权限管理->菜单规则,给对应菜单的添加上备注信息后即可显示,支持HTML 2.TAB过滤选项卡在一键生成 ...

scrapy中间件

scrapy中间件的更多相关文章

随机推荐

热门专题