Scrapy源码注解--CookiesMiddleware

class CookiesMiddleware(object):

    """

    中间件在Scrapy启动时实例化.其中jars属性是一个默认值为CookieJar对象的dict.

    该中间件追踪web server发送的cookie,保存在jars中,并在之后的request中发送回去,

    类似浏览器的行为.

    CookiesMiddleware还用于实现单Spider多cookie.通过在Request meta中添加cookiejar来支持单

    spider追踪多cookie session.默认情况下其使用一个cookie jar(session)，不过您可以传递一个

    标示符来使用多个。

    例如:

    for i, url in enumerate(urls):

        yield scrapy.Request("http://www.example.com", meta={'cookiejar': i},callback=self.parse_page)

    注意:meta中的cookiejar仅存储了cookiejar的标识,真是的cookiejar存储在CookiesMiddleware实

    例的jars属性中

    """

    def __init__(self, debug=False):

        self.jars = defaultdict(CookieJar)

        self.debug = debug

    @classmethod

    def from_crawler(cls, crawler):

        # COOKIES_ENABLED默认值为True,是否启用CookiesMiddleware

        # COOKIES_DEBUG默认值为False,如果启用，Scrapy将记录所有在request(Cookie 请求头)发

        # 送的cookies及response接收到的cookies(Set-Cookie 接收头)。

        if not crawler.settings.getbool('COOKIES_ENABLED'):

            raise NotConfigured

        return cls(crawler.settings.getbool('COOKIES_DEBUG'))

    def process_request(self, request, spider):

        if request.meta.get('dont_merge_cookies', False):

            return

        # 如果在request meta中使用了cookiejar, cookiejarkey为对应的标识.

        # 否则cookiejarkey为None

        cookiejarkey = request.meta.get("cookiejar")

        # 第一次执行jars会为每个key产生一个默认值cookiejar对象.默认为{None: cookiejar}

        jar = self.jars[cookiejarkey]

       # 见下面_get_request_cookies()方法

        cookies = self._get_request_cookies(jar, request)

        for cookie in cookies:

            jar.set_cookie_if_ok(cookie, request)

        # set Cookie header

        request.headers.pop('Cookie', None)

        # 将cookie加入到request的headers中

        jar.add_cookie_header(request)

        self._debug_cookie(request, spider)

    def process_response(self, request, response, spider):

        if request.meta.get('dont_merge_cookies', False):

            return response

        # extract cookies from Set-Cookie and drop invalid/expired cookies

        cookiejarkey = request.meta.get("cookiejar")

        jar = self.jars[cookiejarkey]

       # 在请求允许的情况下(?),从response中提取cookie并入当前的cookiejar

        jar.extract_cookies(response, request)

        self._debug_set_cookie(response, spider)

        return response

    ...

    ...

    def _format_cookie(self, cookie):

        # 对以字典或字典的列表的形式传入的cookie进行格式化

        cookie_str = '%s=%s' % (cookie['name'], cookie['value'])

        if cookie.get('path', None):

            cookie_str += '; Path=%s' % cookie['path']

        if cookie.get('domain', None):

            cookie_str += '; Domain=%s' % cookie['domain']

        return cookie_str

    def _get_request_cookies(self, jar, request):

        # 将request中cookies参数添加的cookie合并到当前的cookiejar中

        if isinstance(request.cookies, dict):

            cookie_list = [{'name': k, 'value': v} for k, v in \

                    six.iteritems(request.cookies)]

        else:

            cookie_list = request.cookies

        cookies = [self._format_cookie(x) for x in cookie_list]

        headers = {'Set-Cookie': cookies}

        # 使用刚才获取的cookie构造一个响应对象

        response = Response(request.url, headers=headers)

        # cookiejar.make_cookies方法从response中提取cookie放入当前cookiejar中.

        return jar.make_cookies(response, request)

CookiesMiddleware默认情况下实现了cookie在请求-响应之间的流转和填充.

又可以通过scrapy.Request(url, meta={'cookiejar': n})来实现单Spider多cookie.

通过读源码也解答了上一篇博文"Scrapy框架--cookie的获取/传递/本地保存"中的疑惑.

Scrapy源码注解--CookiesMiddleware的更多相关文章

Scrapy源码学习（一）
用Scrapy已经有一段时间了,觉得该是看一下源码的时候了.最开始用的时候还是0.16的版本,现在稳定版已经到了0.18.结合使用Scrapy的过程,先从Scrapy的命令行看起. 一.准备下载源代 ...
DispatcherServlet源码注解分析
DispatcherServlet的介绍与工作流程 DispatcherServlet是SpringMVC的前端分发控制器,用于处理客户端请求,然后交给对应的handler进行处理,返回对应的模型和视 ...
scrapy源码分析（转）
记录一下两个讲解scrapy源码的博客: 1.http://kaito-kidd.com/2016/11/21/scrapy-code-analyze-component-initialization ...
通过更改scrapy源码进行spider分发实现一个综合爬虫
最近我正写一个项目,项目的需求如下一,要爬取大约100种几百个网页的类容,并且这些网页的爬取频率不一样,有些一天爬取一次,有些一周爬取一次,二,网页爬取内容有变化,也就是说要爬取的内容会根据需求进行改 ...
fastclick 源码注解及一些基础知识点
在移动端,网页上的点击穿透问题导致了非常糟糕的用户体验.那么该如何解决这个问题呢? 问题产生的原因移动端浏览器的点击事件存在300ms的延迟执行,这个延迟是由于移动端需要通过在这个时间段用户是否两次 ...
Twisted使用和scrapy源码剖析
1.Twisted是用Python实现的基于事件驱动的网络引擎框架. 事件驱动编程是一种编程范式,这里程序的执行流由外部事件来决定.它的特点是包含一个事件循环,当外部事件发生时使用回调机制来触发相应的 ...
zepto源码注解
/* Zepto v1.0-1-ga3cab6c - polyfill zepto detect event ajax form fx - zeptojs.com/license */ ;(funct ...
linux内核源码注解
轻松学习Linux操作系统内核源码的方法针对好多Linux 爱好者对内核很有兴趣却无从下口,本文旨在介绍一种解读linux内核源码的入门方法,而不是解说linux复杂的内核机制:一．核心源程序的文件 ...
Spring 源码注解
一.@Retention可以用来修饰注解,是注解的注解,称为元注解. Retention注解有一个属性value,是RetentionPolicy类型的,Enum RetentionPolic ...

随机推荐

Django入门与实践-第22章：基于类的视图
http://127.0.0.1:8000/boards/1/topics/2/posts/2/edit/ http://127.0.0.1:8000/ #boards/views.py from d ...
[GO]关于go的waitgroup
watigroup是用来控制一组goroutine的,用来等待一组goroutine结束比如关于kafka的消费者代码除了生硬的让程序等待一个小时,也可以这样写 package main impor ...
linux处理U盘中的资料-挂载-tar.gz软件安装-linux环境下软件的安装方式
1. U盘插入linux一般会有以下反映 (1)/dev 的目录下,多出一个sdb的磁盘. 因为:目前系统中有两个硬盘, sda是原来的系统磁盘.sdb是插入的U盘. 其中:sdb1表示sdbU盘的一 ...
Ansible之ansible-playbook roles
刚开始学习运用 playbook 时,可能会把 playbook 写成一个很大的文件,到后来可能你会希望这些文件是可以方便去重用的,所以需要重新去组织这些文件. 基本上,使用 include 语句引用 ...
Leader Election 选举算法
今天讲一讲分布式系统中必不可少的选举算法. leader 就是一堆服务器中的协调者,某一个时刻只能有一个leader且所有服务器都承认这个leader. leader election就是在一组进程中 ...
Ubuntu14.04下Pycharm3.4 字体渲染
在ubuntu下搭建了django的开发环境,搭建过程十分简单,Pycharm的安装更简单,下载tar包解压并执行bin目录下的脚本即可,但是看着那个字体真心不爽.于是开始搜索调教. 1.安装打了渲染 ...
Android Studio 集成 TFS，实现安卓移动开发的持续集成和交付（DevOps）
目录 1 集成TFS系统.... 1.1 概述.... 1.2 安装TFS插件.... 1.2.1 在线安装方式.... 1.2.2 离线安装方案.... 1.3 常见操作.... 1.3.1 新建G ...
ADO.NET系列之DataAdapter对象
ADO.NET系列之Connection对象 ADO.NET系列之Command对象 ADO.NET系列之DataAdapter对象 ADO.NET系列之事务和调用存储过程我们前两篇文章介绍了ADO ...
K8S+GitLab-自动化分布式部署ASP.NET Core(二) ASP.NET Core DevOps
一.介绍前一篇,写的K8S部署环境的文章,简单的介绍下DevOps(Development和Operations的组合词),高效交付, 自动化流程,来减少软件开发人员和运维人员的沟通.Martin ...
NGUI图集字体
UIFont里使用Symbols来指定字体时用Sprite前缀和名字自动分配的工具,前段时间工作需要时写的,具体用法有空时再写. using UnityEngine; using UnityEdito ...

Scrapy源码注解--CookiesMiddleware

Scrapy源码注解--CookiesMiddleware的更多相关文章

随机推荐

热门专题