Scrapy框架--cookie的获取/传递/本地保存

2024-08-28 23:30:35 原文

环境:Python3.6 + Scrapy1.4

我要实现的东西:1. 完成模拟登陆

2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中

3. 再次使用时从本地的cookie.txt中读取cookie,省略模拟登陆.

看了一些关于Scrapy操作cookie的博客,写的大同小异(都不好使...).我总结一下我尝试出来的关于cookie的提取和传递的操作,亲测可用

Cookie的传递和提取

from scrapy.http.cookies import CookieJar    # 该模块继承自内置的http.cookiejar,操作类似

# 实例化一个cookiejar对象

cookie_jar = CookieJar()

# 首先是cookie的提取

class MySpider(scrapy.Spider):

    ....

    ....

    # 模拟登陆,之后调用一个检查是否登录成功的函数

    def login(self, response):

        ....

        return [scrapy.FormRequest(

            url=login_url,

            formdata = {'username':xxx, 'password':xxx},

            callback = self.check_login

        )]

def check_login(self, response):

    if 登录成功:

        # 到这里我们的登录状态已经写入到response header中的'Set-Cookies'中了,

        # 使用extract_cookies方法可以提取response中的cookie

        cookiejar.extract_cookies(response, response.request)

        # cookiejar是类字典类型的,将它写入到文件中

        with open('cookies.txt', 'w') as f:

            for cookie in cookie_jar:

                f.write(str(cookie) + '\n')

# 有些情况可能在发起登录之前会有一些请求,会陆续的产生一些cookie,可以在第一次请求的时候将cookiejar写入到request的meta中进行传递

scrapy.Request(url, callback=self.xxx, meta={'cookiejar': cookiejar})

# 之后每次需要传递这个cookiejar对象可以从response.meta中拿到

scrapy.Request(url, callback=self.xxx, meta={'cookiejar': response.meta['cookiejar']})

看了不少博文中只是写将cookie添加到meta中,这样就可以在请求的过程中获取到cookie.我这样尝试过,cookiejar在多个请求-响应中流转后依然是空的,所以只能在需要的时候使用cookiejar.extract_cookies方法进行手动提取.

若哪位大神知道meta中的cookiejar自行获取cookie的方法,请评论指点,谢谢!

从本地文件中读取Cookie

     with open('cookies.txt', 'r') as f:

         cookiejar = f.read()

         p = re.compile(r'<Cookie (.*?) for .*?>')

         cookies = re.findall(p, cookiejar)

         cookies = (cookie.split('=', 1) for cookie in cookies)

         cookies = dict(cookies)

之后可以在第一次发起请求(start_request)时将cookie手动添加到scrapy.Request的cookies参数中,cookie在后续的请求中会自行流转.

scrapy.Request(url, callback=self.xxx, cookies=cookies)

关于request meta key中cookiejar的作用请参看[Scrapy源码注解--CookiesMiddleware](http://www.cnblogs.com/thunderLL/p/8060279.html)--2017.12.18

Scrapy框架--cookie的获取/传递/本地保存的更多相关文章

scrapy框架爬取图片并将图片保存到本地
如果基于scrapy进行图片数据的爬取在爬虫文件中只需要解析提取出图片地址,然后将地址提交给管道配置文件中:IMAGES_STORE = './imgsLib' 在管道文件中进行管道类的制定: f ...
Scrapy框架之代理和cookie
Cookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式.Cookie 是由 Web 服务器保存在用户浏览器(客户端)上的小文本文件,它可以包含有关用户的信息.无论何时用户 ...
php 获取远程图片保存到本地
php 获取远程图片保存到本地使用两个函数 1.获取远程文件 2.把图片保存到本地 /** * 获取远程图片并把它保存到本地 * $url 是远程图片的完整URL地址,不能为空. */ functi ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里 ...
PHP获取网络图片并保存在本地目录
PHP获取网络图片并保存在本地目录思路: 代码如下: function file_exists_S3($url) { $state = @file_get_contents($url,0,null,0 ...
Python3 获取网络图片并且保存到本地
Python3 获取网络图片并且保存到本地 import requests from bs4 import BeautifulSoup from urllib import request impor ...
Python爬虫之cookie的获取、保存和使用【新手必学】
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:huhanghao Cookie,指某些网站为了辨别用户身份.进行ses ...
scrapy框架携带cookie访问淘宝购物车
我们知道,有的网页必须要登录才能访问其内容.scrapy登录的实现一般就三种方式. 1.在第一次请求中直接携带用户名和密码. 2.必须要访问一次目标地址,服务器返回一些参数,例如验证码,一些特定的加密 ...

随机推荐

HDU 5956 The Elder (树上斜率DP)
题意:给定上一棵树,然后每条边有一个权值,然后每个点到 1 的距离有两种,第一种是直接回到1,花费是 dist(1, i)^2,还有另一种是先到另一个点 j,然后两从 j 向1走,当然 j 也可以再向 ...
centOS下NFS服务器的安装配置详解
一.NFS简介 NFS就是Network FileSystem的缩写,最早之前是由Sun公司所发展出来的.他最大的功能就是可以透过网络,让不同的机器.不同的操作系统可以彼此分享个别档案(share f ...
Flex box 弹性盒子布局
display: -webkit-flex 标识使用弹性布局 flex: num 占容器的比例 Flex等比划分导航1 : Flex :1; 导航2 Flex: 2; ————&g ...
Lucene原理一
Lucene 是一个高效的,基于Java 的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种: ...
17、docker多机网络通信overlay
理论上来说多台宿主机之间的docker容器之间是无法通讯的,但是多台宿主机之间的docker容器之间是可以通讯的,主要是通过VXLAN技术来实现的. GitHub上对于docker-overl ...
cried me a river--kristinia debarge
cried me a river--kristinia debarge I still remember the day that we metI hold on to every word you ...
EBS 中查看LOV中的查询语句
http://blog.csdn.net/shishun123/article/details/6874824 一直有实施顾问询问我XXForm的XX LOV是什么逻辑,取数SQL是什么来着,以前比较 ...
iOS Development和iOS Distribution有什么区别
http://zhidao.baidu.com/link?url=T9od33JuA7jjxzfyV-wOjuVLSNUaqpc9aoCu2HjfYfHBuRLW1CNDii0Bh9uvG6h-GeJ ...
Sharepoint/Project Server 看不到“安全性”菜单以及子菜单
在Sharepoint/Project Server 构建后,左侧看不到看不到“服务器设置”菜单,在设置菜单后左侧出现“服务器设置”菜单,但是依然在右侧看不到“安全性”菜单以及子菜单. (这个图是借的 ...
cassandra集群缩容与剔除问题节点
今天在操作cassandra集群数据迁移时发生了一些意料之外的事情,服务器迁移前与迁移后同样为5台,但是不知道是什么原因导致的,迁移过后的节点居然多出了一台cassandra节点,个人瞬间感觉莫名其妙 ...