第十九节：Scrapy爬虫框架之Middleware文件详解

# -*- coding: utf-8 -*-

# 在这里定义蜘蛛中间件的模型
# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

# ===========================Spider Middleware============================
# 定义：介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
# Spider Middleware功能：处理爬虫的请求输入和响应输出
# scrapy已经提供了一些直接使用的中间件，他被SPIDER_MIDDLEWARES_BASE定义：
# {
#     'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
#     'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
#     'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
#     'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
#     'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
# }

# =================SpiderMiddleware类==================
class MaoyanSpiderMiddleware(object):
    @classmethod

    # 类方法，参数crawler，可以通过crawler调用settings里的全局参数
    def from_crawler(cls, crawler):
        """
        :param crawler: 获取settings里的全局参数，如crawler.settings.get(参数)
        """
        s = cls()
        # 调用spider_opened函数进行爬取数据并对该函数发送该信号。该信号一般用来分配spider的资源
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

        # 调用spider_closed函数进行关闭爬虫并对该函数发送该信号。该信号用来释放spider在spider_opened时占用的资源。
        # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    # 当返回来的response被Spider Middleware处理时，该方法被调用
    def process_spider_input(self, response, spider):
        """
        :param response: 被Spider Middleware处理的response对象
        :param spider: 返回response对应的spider对象
        """
        return None

    # 当spider处理response对象的结果后，该方法被调用
    def process_spider_output(self, response, result, spider):
        """
        :param response: 被spider处理后得到结果的response对象
        :param result: result包含Item或request对象的可迭代对象，即spider返回的response结果
        :param spider: 返回response对象的spider对象
        """
        # 遍历返回的可迭代对象
        for i in result:
            yield i

    # 当spider的process_spider_input和process_spider_output发生异常时调用该方法
    def process_spider_exception(self, response, exception, spider):
        """
        :param response: 异常被抛出时被处理的response对象
        :param exception: 抛出的异常
        :param spider: 抛出该异常的spider对象
        """
        pass

    # 以spider启动的request为参数调用该方法,返回一个request可迭代对象
    def process_start_requests(self, start_requests, spider):
        """
        :param start_requests: 开始请求的可迭代对象
        :param spider: 开始请求所对应的spider对象
        """
        # 遍历可迭代对象
        for r in start_requests:
            yield r

    # 当spider开启时调用该函数，说明开始爬取数据并分配spider的资源
    def spider_opened(self, spider):
        """
        :param spider: 开始爬取的spider对象
        """
        spider.logger.info('Spider opened: %s' % spider.name)

    # # 当某个spider被关闭时，说明关闭该爬虫并释放spider在spider_opened时占用的资源。
    # def spider_closed(self, spider):
    #     """
    #     :param spider: 开始爬取的spider对象
    #     """
    #     spider.logger.info('Spider opened:%s'%spider.name)

# ======================Downloader Middleware========================
# 定义：位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。见scrapy框架图
# Downloader Middleware功能：可以修改User-Agent、处理重定向、设置代理、失败重试、设置Cookies等
# scrapy已经提供了一些直接使用的中间件，他被DOWNLOADER_MIDDLEWARES_BASE定义：
# {
#     'scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware': 100,
#     'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware': 300,
#     'scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware': 350,
#     'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400,
#     'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 500,
#     'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware': 550,
#     'scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': 580,
#     'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware': 590,
#     'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 600,
#     'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700,
#     'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750,
#     'scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 830,
#     'scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850,
#     'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 900,
# }

# ===============DownloaderMiddleware类=================
class MaoyanDownloaderMiddleware(object):
    @classmethod

    # 类方法，参数crawler，可以通过crawler调用settings里的全局参数
    def from_crawler(cls, crawler):
        """
        :param crawler: 获取settings里的全局参数，如crawler.settings.get(参数)
        """
        s = cls()
        # 调用spider_opened函数进行爬取数据并对该函数发送该信号。该信号一般用来分配spider的资源
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

        # 调用spider_closed函数进行关闭爬虫并对该函数发送该信号。该信号用来释放spider在spider_opened时占用的资源。
        # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    # request被scrapy从调度器调度给Downloader Middleware之前调用该方法对request对象进行处理
    def process_request(self, request, spider):
        """
        :param request: 就是scrapy从调度器调度出来的request对象
        :param spider: 就是scrapy调度出来的request对象的spider对象
        """
        return None

    # request对象被Downloader Middleware执行后返回response是才调用该方法对response对象进行处理
    def process_response(self, request, response, spider):
        """
        :param request: 调度出来被Downloader Middleware处理的request对象
        :param response: Downloader Middleware处理request对象返回后的response对象
        :param spider: response返回来的spider对象
        """
        return response

    # 当process_request和process_response发生异常时调用
    def process_exception(self, request, exception, spider):
        """
        :param request:  产生异常的request对象
        :param exception:  抛出的异常对象
        :param spider: 产生异常的request对象的spider对象
        """
        pass

    # 当spider开启时调用该函数，说明开始爬取数据并分配spider的资源
    def spider_opened(self, spider):
        """
        :param spider: 开始爬取的spider对象
        """
        spider.logger.info('Spider opened: %s' % spider.name)

    # # 当某个spider被关闭时，说明关闭该爬虫并释放spider在spider_opened时占用的资源。
    # def spider_closed(self, spider):
    #     """
    #     :param spider: 开始爬取的spider对象
    #     """
    #     spider.logger.info('Spider opened: %s' % spider.name)

第十九节：Scrapy爬虫框架之Middleware文件详解的更多相关文章

第十八节：Scrapy爬虫框架之settings文件详解
# -*- coding: utf-8 -*- # Scrapy settings for maoyan project## For simplicity, this file contains on ...
第三百一十九节，Django框架，文件上传
第三百一十九节,Django框架,文件上传 1.自定义上传[推荐] 请求对象.FILES.get()获取上传文件的对象上传对象.name获取上传文件名称上传对象.chunks()获取上传数据包,字节码 ...
“全栈2019”Java第六十九章：内部类访问外部类成员详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
第二百六十九节，Tornado框架-Session登录判断
Tornado框架-Session登录判断 Session需要结合cookie来实现 Session的理解 1.用户登录系统时,服务器端获取系统当前时间,进行nd5加密,得到加密后的密串 2.将密串作 ...
第二百五十九节，Tornado框架-模板语言的三种方式
Tornado框架-模板语言的三种方式模板语言就是可以在html页面,接收逻辑处理的self.render()方法传输的变量,将数据渲染到对应的地方一.接收值渲染 {{...}}接收self.re ...
第三十五节，目标检测之YOLO算法详解
Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object de ...
第十五节，卷积神经网络之AlexNet网络详解(五)
原文 ImageNet Classification with Deep ConvolutionalNeural Networks 下载地址:http://papers.nips.cc/paper/4 ...
第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item
Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...
Scrapy爬虫框架补充内容一(Linux环境)
Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下: 组件分析: ENGINE:(核心):处理整个框架的数据流,各个组件在其控制下协同工作 SCHEDULER(调度器):负责接收引 ...

随机推荐

MFC中利用CString和Format成员函数将数字格式化输出
str.Format("格式控制字符串”,输出列表): 格式控制字符串包括格式字符串和非格式字符串,用双引号括起来.其中非格式字符串原样输出. 格式字符串是以%开头的字符串:%[标识][输出 ...
进击的Python【第十章】：Python的高级应用（多进程，进程间通信，协程与异步，牛逼的IO多路复用）
Python的socket高级应用(多进程,协程与异步) 一.多进程multiprocessing multiprocessing is a package that supports spawnin ...
Xors on Segments Codeforces - 620F
http://codeforces.com/problemset/problem/620/F 此题是莫队,但是不能用一般的莫队做,因为是最优化问题,没有办法在删除元素的时候维护答案. 这题的方法(好像 ...
工作记录主要了解EF 列注释DataAnnotations
遇到一个问题,是子类型必须完全转换为父类型,普通的显示转化.隐式转化.Cast.ConvertAll等方法无效,用Newtonsoft.Json转化才解决 var json = JsonConvert ...
AJPFX:关于面向对象及java的一些机制的思考
1.变量的作用域和生命周期什么关系? 2.java除了在类体和方法体(包括参数)中可以声明变量外,其他位置一定不可以声明变量吗?比如高级别的应用里是不是有例外呢? 3.java源文件中代码的组织方式一 ...
poj2991 Crane
思路: 线段树每个节点维护第一条线段起点指向最后一条线段终点的向量,于是每一个操作都是一次区间更新.使用成段更新的线段树即可.实现: #include <cstdio> #include ...
[转载]迅为4418开发板Qt移植移动4G模块第一部分
本文转自迅为论坛:http://topeetboard.com 平台:iTOP-4418开发板 1.首先要配置内核,这个一步和Android系统移植3G或者4G模块是一样的.一般模块的 ...
Linux 的 Spinlock 在 MIPS 多核处理器中的设计与实现
引言随着科技的发展,尤其是在嵌入式领域,高性能.低功耗的处理器成为众多厂商追逐的目标,但是由于技术和工艺的瓶颈,试图在单核处理器上达到这样的目标变得越发困难,于是人们提出了多核处理器的概念.多核处理 ...
oracle 表之间的连接
排序 - - 合并连接(Sort Merge Join, SMJ): a) 对于非等值连接,这种连接方式的效率是比较高的. b) 如果在关联的列上都有索引,效果更好. c) 对于将2个较大的row s ...
PowerDesigner 操作手册
1.错误信息:Generation aborted due to errors detected during the verification of the model 解决方案: 把检查模型的选项 ...

第十九节：Scrapy爬虫框架之Middleware文件详解

第十九节：Scrapy爬虫框架之Middleware文件详解的更多相关文章

随机推荐

热门专题