使用 Python 读取火狐的 cookies

这事本来是有个 browsercookie 库可以做的，但是初看它就有不少问题：

不能指定要使用的火狐 profile（后来发现可以指定数据库文件）。
找不到 sessionstore.js 文件时会向标准输出打印一行信息。对于 cron 脚本，这种行为是非常非常讨厌的。

我在尝试解决这些问题时，又发现了额外的问题：它每次都要把所有的 cookie 全部读取。再加上不必要地导入 keyring、Crypto 等库，让我想放弃了。

于是我考虑自己实现一个 cookiejar。但发现它有如下问题：

公开接口和实现细节没有清晰地分离
没有提供存储和读取 cookie 的抽象，而是存在一个字典里

这样扩展起来就十分令人不爽了，也不知道能正常工作多久。

也罢，cookiejar 是个十分复杂的东西，我不如实现一个获取匹配的 cookie 的独立功能，然后通过各种姿势传给 HTTP 客户端库好了。

火狐的 cookie 数据库文件「cookies.sqlite」里就一个「moz_cookies」表，其结构也挺简单的。但是，怎么做 cookie 的匹配呢？既然决定放弃 Python 自带的 cookiejar，那就不看它，直接看火狐的源码好了。

于是去 DXR 上搜索火狐的源码。没费多少力气就找到了相关的部分，然后跟着代码就能知道是怎么匹配的了：

通过祼域名查得候选 cookie
根据域名、路径和 secure 等属性来过滤 cookie
就这样，没有第三步了

祼域名使用 tldextract 库来做，其它属性的匹配算法直接看火狐的代码。虽然是不熟悉的 C++ 代码，但是写得很棒，很容易理解。

把自己需要的部分写成 Python，得一新模块——firefoxcookies。就一个方法，返回一个 cookie 的字典，用起来也很方便。比如在我的 requestsutils.RequestsBase 中，这么干就可以了：

class FireRequests(RequestsBase):

def initialize(self):

self._fc = FirefoxCookies(os.path.expanduser(

'~/.mozilla/firefox/nightly/cookies.sqlite'))

def request(self, url, method=None, *args, **kwargs):

if self.baseurl:

url = urljoin(self.baseurl, url)

cookies = self._fc.get_cookies(url)

return super().request(url, method=method, cookies=cookies)

就这样就满足我的需求了。以后再有别的需求，再慢慢扩展。

使用 Python 读取火狐的 cookies的更多相关文章

qpython3 读取安卓lastpass Cookies
之前我的博客写了python读取windows chrome Cookies,沿着同样的思路,这次本来想尝试读取安卓chrome Cookies, 但是可能是chrome的sqlite3版本比较高读取 ...
python读取excel一例-------从工资表逐行提取信息
在工作中经常要用到python操作excel,比如笔者公司中一个人事MM在发工资单的时候,需要从几百行的excel表中逐条的粘出信息,然后逐个的发送到员工的邮箱中.人事MM对此事不胜其烦,终于在某天请 ...
python读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...
python读取mnist
python读取mnist 其实就是python怎么读取binnary file mnist的结构如下,选取train-images TRAINING SET IMAGE FILE (train-im ...
[转] Windows下使用Python读取Excel表格数据
http://www.python-excel.org/这个网站罗列了很多关于在Python下操作Excel文件的信息,这里选择了其介绍的第一个模块xlrd . xlrd 0.9.2版本跨平台同时支持 ...
Python读取txt文件
Python读取txt文件,有两种方式: (1)逐行读取 data=open("data.txt") line=data.readline() while line: print ...
Python读取Yaml文件
近期看到好多使用Yaml文件做为配置文件或者数据文件的工程,随即也研究了下,发现Yaml有几个优点:可读性好.和脚本语言的交互性好(确实非常好).使用实现语言的数据类型.有一个一致的数据模型.易于实现 ...
python读取中文文件编码问题
python 读取中文文件后,作为参数使用,经常会遇到乱码或者报错asii错误等. 我们需要对中文进行decode('gbk') 如我有一个data.txt文件有如下内容: 百度谷歌现在想读取文件 ...
Python读取Excel数据并根据列名取值
一直想将自己接触到的东西梳理一遍,可就是迈不出第一步,希望从这篇总结开始不要再做行动的矮人了. 最近测试过程中需要用到python读取excel用例数据,于是去了解和学习了下xlrd库,这里只记录使用 ...

随机推荐

c++刷题（27/100）反转单项链表，链表的倒数第k个
题目1:调整数组顺序使奇数位于偶数前面输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位 ...
Djangoform表单Ajax控制跳转
需求: 1:在登陆页面输入账号密码后,ajax异步提交数据给后端验证. 2:验证通过后,后端指定跳转页面,并把页面封装进返回的Json数据中,由ajax控制from表单跳转到目标页面一:登陆页面HT ...
2016.6.17——Valid Parentheses
Valid Parentheses 本题收获: 1.stack的使用 2.string和char的区别题目: Given a string containing just the character ...
mini2440的程序下载
mini2440拿到手有四天了,抱着很大的兴趣看韦东山老师的视频,但是因为电脑是win7 64bit的系统,dnw的驱动没有,经查询可以使用supervivi,就查找相关的资料.但是始终弄不好,后来使 ...
30 C? Go? Cgo!
C? Go? Cgo! 17 March 2011 Introduction Cgo lets Go packages call C code. Given a Go source file writ ...
08 Packages 包
Packages Standard library Other packages Sub-repositories Community Standard library Name Synopsis ...
XP远程连接Win10，提示【远程计算机需要网络级别身份验证，而您的计算机不支持该验证】
最近电脑安装了Win10系统,在办公室可以通过其他电脑远程,但是回去后使用自己的电脑(XP系统)进行远程提示失败, 提示[远程计算机需要网络级别身份验证,而您的计算机不支持该验证],然后上网查找资料, ...
Python 模块进阶
import导入模块 1. import 搜索路径 import sys sys.path 例子: In [1]: import sys In [2]: sys.path Out[2]: ['', ' ...
jmeter之数据库
https://www.cnblogs.com/ShadowXie/p/6007515.html
java基础79 会话管理（Cookie技术、Session技术）
1.概念会话管理:管理浏览器和服务器之间会话过程中产生的会话数据. Cookie技术:会话数据保存到浏览器客户端.[存编号/标记(id)] Session技术:会话技术会保存到 ...

使用 Python 读取火狐的 cookies

使用 Python 读取火狐的 cookies的更多相关文章

随机推荐

热门专题