一 Scrapy框架--cookie的获取/传递/本地保存

1. 完成模拟登陆
2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中
3. 再次使用时从本地的cookie.txt中读取cookie,省略模拟登陆.

Cookie的传递和提取

from scrapy.http.cookies import CookieJar    

# 该模块继承自内置的http.cookiejar,操作类似

# 实例化一个cookiejar对象

cookie_jar = CookieJar()

# 首先是cookie的提取

class MySpider(scrapy.Spider):

    ....

    ....

    # 模拟登陆,之后调用一个检查是否登录成功的函数

    def login(self, response):

        ....

        return [scrapy.FormRequest(

            url=login_url,

            formdata = {'username':xxx, 'password':xxx},

            callback = self.check_login

        )]

def check_login(self, response):

    if 登录成功:

        # 到这里我们的登录状态已经写入到response header中的'Set-Cookies'中了,

        # 使用extract_cookies方法可以提取response中的cookie

        cookiejar.extract_cookies(response, response.request)

        # cookiejar是类字典类型的,将它写入到文件中

        with open('cookies.txt', 'w') as f:

            for cookie in cookie_jar:

                f.write(str(cookie) + '\n')

# 有些情况可能在发起登录之前会有一些请求,会陆续的产生一些cookie,可以在第一次请求的时候将cookiejar写入到request的meta中进行传递

scrapy.Request(url, callback=self.xxx, meta={'cookiejar': cookiejar})

# 之后每次需要传递这个cookiejar对象可以从response.meta中拿到

scrapy.Request(url, callback=self.xxx, meta={'cookiejar': response.meta['cookiejar']})

看了不少博文中只是写将cookie添加到meta中,这样就可以在请求的过程中获取到cookie.我这样尝试过,cookiejar在多个请求-响应中流转后依然是空的,所以只能在需要的时候使用cookiejar.extract_cookies方法进行手动提取.
若哪位大神知道meta中的cookiejar自行获取cookie的方法,请评论指点,谢谢!

从本地文件中读取Cookie

with open('cookies.txt', 'r') as f:

         cookiejar = f.read()

         p = re.compile(r'<Cookie (.*?) for .*?>')

         cookies = re.findall(p, cookiejar)

         cookies = (cookie.split('=', 1) for cookie in cookies)

         cookies = dict(cookies)

之后可以在第一次发起请求(start_request)时将cookie手动添加到scrapy.Request的cookies参数中,cookie在后续的请求中会自行流转.

scrapy.Request(url, callback=self.xxx, cookies=cookies)

二 Scrapy源码注解--CookiesMiddleware

class CookiesMiddleware(object):

    """

    中间件在Scrapy启动时实例化.其中jars属性是一个默认值为CookieJar对象的dict.

    该中间件追踪web server发送的cookie,保存在jars中,并在之后的request中发送回去,

    类似浏览器的行为.

    CookiesMiddleware还用于实现单Spider多cookie.通过在Request meta中添加cookiejar来支持单

    spider追踪多cookie session.默认情况下其使用一个cookie jar(session)，不过您可以传递一个

    标示符来使用多个。

    例如:

    for i, url in enumerate(urls):

        yield scrapy.Request("http://www.example.com", meta={'cookiejar': i},callback=self.parse_page)

    注意:meta中的cookiejar仅存储了cookiejar的标识,真是的cookiejar存储在CookiesMiddleware实

    例的jars属性中

    """

    def __init__(self, debug=False):

        self.jars = defaultdict(CookieJar)

        self.debug = debug

    @classmethod

    def from_crawler(cls, crawler):

        # COOKIES_ENABLED默认值为True,是否启用CookiesMiddleware

        # COOKIES_DEBUG默认值为False,如果启用，Scrapy将记录所有在request(Cookie 请求头)发

        # 送的cookies及response接收到的cookies(Set-Cookie 接收头)。

        if not crawler.settings.getbool('COOKIES_ENABLED'):

            raise NotConfigured

        return cls(crawler.settings.getbool('COOKIES_DEBUG'))

    def process_request(self, request, spider):

        if request.meta.get('dont_merge_cookies', False):

            return

        # 如果在request meta中使用了cookiejar, cookiejarkey为对应的标识.

        # 否则cookiejarkey为None

        cookiejarkey = request.meta.get("cookiejar")

        # 第一次执行jars会为每个key产生一个默认值cookiejar对象.默认为{None: cookiejar}

        jar = self.jars[cookiejarkey]

       # 见下面_get_request_cookies()方法

        cookies = self._get_request_cookies(jar, request)

        for cookie in cookies:

            jar.set_cookie_if_ok(cookie, request)

        # set Cookie header

        request.headers.pop('Cookie', None)

        # 将cookie加入到request的headers中

        jar.add_cookie_header(request)

        self._debug_cookie(request, spider)

    def process_response(self, request, response, spider):

        if request.meta.get('dont_merge_cookies', False):

            return response

        # extract cookies from Set-Cookie and drop invalid/expired cookies

        cookiejarkey = request.meta.get("cookiejar")

        jar = self.jars[cookiejarkey]

       # 在请求允许的情况下(?),从response中提取cookie并入当前的cookiejar

        jar.extract_cookies(response, request)

        self._debug_set_cookie(response, spider)

        return response

    ...

    ...

    def _format_cookie(self, cookie):

        # 对以字典或字典的列表的形式传入的cookie进行格式化

        cookie_str = '%s=%s' % (cookie['name'], cookie['value'])

        if cookie.get('path', None):

            cookie_str += '; Path=%s' % cookie['path']

        if cookie.get('domain', None):

            cookie_str += '; Domain=%s' % cookie['domain']

        return cookie_str

    def _get_request_cookies(self, jar, request):

        # 将request中cookies参数添加的cookie合并到当前的cookiejar中

        if isinstance(request.cookies, dict):

            cookie_list = [{'name': k, 'value': v} for k, v in \

                    six.iteritems(request.cookies)]

        else:

            cookie_list = request.cookies

        cookies = [self._format_cookie(x) for x in cookie_list]

        headers = {'Set-Cookie': cookies}

        # 使用刚才获取的cookie构造一个响应对象

        response = Response(request.url, headers=headers)

        # cookiejar.make_cookies方法从response中提取cookie放入当前cookiejar中.

        return jar.make_cookies(response, request)

CookiesMiddleware默认情况下实现了cookie在请求-响应之间的流转和填充.
又可以通过scrapy.Request(url, meta={'cookiejar': n})来实现单Spider多cookie.

scrapy 基础组件专题（十四）：scrapy CookiesMiddleware源码的更多相关文章

scrapy 基础组件专题（四）：信号运用
一.scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem cla ...
java基础解析系列(十)---ArrayList和LinkedList源码及使用分析
java基础解析系列(十)---ArrayList和LinkedList源码及使用分析目录 java基础解析系列(一)---String.StringBuffer.StringBuilder jav ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
scrapy 基础组件专题（八）：scrapy-redis 框架分析
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取您可以启动多个spider工 ...
scrapy 基础组件专题（九）：scrapy-redis 源码分析
下面我们来看看,scrapy-redis的每一个源代码文件都实现了什么功能,最后如何实现分布式的爬虫系统: connection.py 连接得配置文件 defaults.py 默认得配置文件 dupe ...
scrapy 基础组件专题（七）：scrapy 调度器、调度器中间件、自定义调度器
一.调度器配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...
第十四章 Executors源码解析
前边两章介绍了基础线程池ThreadPoolExecutor的使用方式.工作机理.参数详细介绍以及核心源码解析. 具体的介绍请参照: 第十二章 ThreadPoolExecutor使用与工作机理第十 ...
scrapy 基础组件专题（二）：下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 1.激活Downloader Mi ...
scrapy 基础组件专题（一）：scrapy框架中各组件的工作流程
Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事 ...

随机推荐

win10系统无法删除文件的解决方法
方法/步骤 1:首先进入不能删除的文件所在的文件夹 2:右键单击此文件夹,选择授予访问权限 3:在授权界面选择删除权限 4:在删除权限中点击更改共享权限 5:我们选择administrator级别,点 ...
05.Java面向对象
一.面向对象基本概念面向对象的特征封装封装是指利用抽象数据类型将数据(属性)和对数据的操作(方法)包装起来,把对象的属性和动作结合成一个独立的单位,并尽可能隐蔽对象的内部处理细节. 继承一个类 ...
controller介绍
Loadrunner Controller可以使用Loadrunner Controller管理和维护方案可以从一个单一的控制点简单有效的控制所有的Vuser 承担着多种工作任务.最常见的就是场景的设 ...
Django自定义500的错误显示信息
这个方法应该对Django version 2.2.4以后的版本都有效,因为我的项目是这个版本,其他版本我并没有测试. 首先找到Django的exception.py文件路径: C:\python_ ...
ZWave 中的消息队列机制
文章主题在我们的日常编程中,对消息队列的需求非常常见,使用一个简洁.高效的消息队列编程模型,对于代码逻辑的清晰性,对于事件处理的高效率来说,是非常重要的.这篇文章就来看看 ZWave 中是通过什 ...
Arduino控制超声波检测与0.96OLED及串口显示
Arduino控制超声波检测与0.96OLED及串口显示代码使用库共享(包括超声波检测与U8glib): 使用元件: 0.96寸 12864 I2C OLED 128x64规格超声波检测模块湿度模 ...
容器技术之Docker Machine
前文我们聊了下docker容器的资源限制,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/13138725.html:今天我们来聊一聊docker machine ...
WeChair项目Alpha冲刺(5/10)
团队项目进行情况 1.昨日进展 Alpha冲刺第五天昨日进展: 前端:完成小程序登录态的定义后端:成功部署项目到服务器并能通过域名访问项目数据库:调整属性数据类型 2.今日安排前端:完善 ...
linux最小化安装命令补全
bash-completion 需要安装bash-completion才能补全,安装后,重新打开一个窗口就能生效.
SpringMVC 学习笔记(三)数据的校验
34. 尚硅谷_佟刚_SpringMVC_数据绑定流程分析.avi 例如:在jsp中输入一个String字符串类型,需要转换成Date类型的流程如下 convertservice对传入的数据进行转换 ...