Python 爬虫(二十五) Cookie的处理--cookielib库的使用

Python中cookielib库（python3中为http.cookiejar）为存储和管理cookie提供客户端支持。

该模块主要功能是提供可存储cookie的对象。使用此模块捕获cookie并在后续连接请求时重新发送，还可以用来处理包含cookie数据的文件。

这个模块主要提供了这几个对象，CookieJar，FileCookieJar，MozillaCookieJar,LWPCookieJar。

1. CookieJar

CookieJar对象存储在内存中。

 >>> import urllib2
 >>> import cookielib
 >>> cookie=cookielib.CookieJar()
 >>> handler=urllib2.HTTPCookieProcessor(cookie)
 >>> opener=urllib2.build_opener(handler)
 >>> opener.open('http://www.google.com.hk'）

查看捕捉到的访问google的cookie:

 >>> print cookie
 <cookielib.CookieJar[<Cookie NID=67=B6YQoEIEjcqDj-adada_WmNYl_JvADsDEDchFTMtAgERTgRjK452ko6gr9G0Q5p9h1vlmHpCR56XCrWwg1pv6iqhZnaVlnwoeM-Ln7kIUWi92l-X2fvUqgwDnN3qowDW for .google.com.hk/>, <Cookie PREF=ID=7ae0fa51234ce2b1:FF=0:NW=1:TM=1391219446:LM=1391219446:S=cFiZ5X8ts9NY3cmk for .google.com.hk/>]>

看来是Cookie实例的集合，Cookie实例有name,value,path,expires等属性：

 >>> for ck in cookie:
 ...     print ck.name,':',ck.value
 ...
 NID : 67=B6YQoEIEjcqDj-adada_WmNYl_JvADsDEDchFTMtAgERTgRjK452ko6gr9G0Q5p9h1vlmHpCR56XCrWwg1pv6iqhZnaVlnwoeM-Ln7kIUWi92l-X2fvUqgwDnN3qowDW
 PREF : ID=7ae0fa51234ce2b1:FF=0:NW=1:TM=1391219446:LM=1391219446:S=cFiZ5X8ts9NY3cmk

2. 将cookie捕捉到文件

FileCookieJar(filename)

创建FileCookieJar实例，检索cookie信息并将信息存储到文件中，filename是文件名。

MozillaCookieJar(filename)

创建与Mozilla cookies.txt文件兼容的FileCookieJar实例。

LWPCookieJar(filename)

创建与libwww-perl Set-Cookie3文件兼容的FileCookieJar实例。

 import urllib2
 import cookielib
 def HandleCookie():

 #handle cookie whit file
 filename='FileCookieJar.txt'
 url='http://www.google.com.hk'
 FileCookieJar=cookielib.LWPCookieJar(filename)
 FileCookeJar.save()
 opener =urllib2.build_opener(urllib2.HTTPCookieProcessor(FileCookieJar))
 opener.open(url)
 FileCookieJar.save()
 print open(filename).read()

 #read cookie from file
 readfilename = "readFileCookieJar.txt"
 MozillaCookieJarFile =cookielib.MozillaCookieJar()
 print MozillaCookieJarFile
  MozillaCookieJarFile.load(readfilename)
  print MozillaCookieJarFile
 if __name__=="__main__":
      HandleCookie()

Python 爬虫(二十五) Cookie的处理--cookielib库的使用的更多相关文章

[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
Python爬虫(二十四)_selenium案例：执行javascript脚本
本章叫介绍如何使用selenium在浏览器中使用js脚本,更多内容请参考:Python学习指南隐藏百度图片 #-*- coding:utf-8 -*- #本篇将模拟执行javascript语句 fr ...
Python爬虫(二十二)_selenium案例：模拟登陆豆瓣
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 #-*- coding:utf-8 -*- from sel ...
Python爬虫(二十)_动态爬取影评信息
本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...
笨办法学Python（二十五）
习题 25: 更多更多的练习我们将做一些关于函数和变量的练习,以确认你真正掌握了这些知识.这节练习对你来说可以说是一本道:写程序,逐行研究,弄懂它. 不过这节练习还是有些不同,你不需要运行它,取而代 ...
Python笔记(二十五)_魔法方法_描述符
描述符的属性方法 __get__(self, instance, owner): 用于访问属性,返回属性的值 __set__(self, instance, value): 用于给属性赋值时,返回属性 ...
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...
二十五. Python基础(25)--模块和包
二十五. Python基础(25)--模块和包 ● 知识框架 ● 模块的属性__name__ # my_module.py def fun1(): print("Hello& ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...

随机推荐

一个简单的NodeJs静态页面的web服务器
主要功能 1 显示www文件夹下静态html或文本类型的文件. 2 缺省访问文件功能. 通过config.js的defaultfile属性设置 3 如果文件夹下没有缺省文件,显示文件夹下文件列表 4 ...
C# 使用 HttpPost 请求调用 WebService
之前调用 WebService 都是直接添加服务引用,然后调用 WebService 方法的,最近发现还可以使用 Http 请求调用 WebService.这里还想说一句,还是 web api 的调用 ...
python的数字图像处理学习（3）
高级滤波: from skimage import data,color,data_dir import matplotlib.pyplot as plt from skimage.morpholog ...
用rpm命令安装定时器crontab
crontab -l command not found 准备以下安装包: ls -l总用量 1004-rw-r--r-- 1 root root 76296 10月 9 16:01 croni ...
异常处理（异常解析器）和对于Properties类型的属性的配置
在程序运行中,有可能因为用户的不当操作,发生异常.. 在springmvc中可以根据不同的异常配置不同的处理方式 1.例如出现这个类型异常 org.springframework.web.multi ...
证明 U and V={0}时 dim(U+V)=dim(U)+dim(V)
U And V={0} 证明 dim(U+V)=dim(U)+dim(V)设{u1,u2,...,uk} 是U的基,{v1,v2...,vr}是V的基,dim(U)=k ,dim(V)=r dim(U ...
B-论文一些好的句子
Due to high design and test costs for real many-core chips, simulators which allow exploring the bes ...
使用bat批处理文件定时自动备份sqlserver数据库
一.创建一个sql文件,在里面写入以下代码: USE MasterGOdeclare @str varchar(100)set @str='D:\sqlserver14backup\CDB\'+rep ...
php,ajax上传文件,多文件上传
HTML <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF- ...
Jersey RESTful WebService框架学习(五)使用@BeanParam
第一步:定义一个实体类注意:实体类的属性需要加上FormParam注解 public class User { @FormParam("name") private String ...

Python 爬虫(二十五) Cookie的处理--cookielib库的使用

2. 将cookie捕捉到文件

Python 爬虫(二十五) Cookie的处理--cookielib库的使用的更多相关文章

随机推荐

热门专题