python urllib2模块携带cookie

今天干活遇到一个事。有一些网站的一些操作非得要求你登陆才能做，比如新浪微博，你要随便看看吧，不行，非得让你登陆了才能看，再比如一些用户操作，像更改自己的资料啦，个人的隐私啦巴拉巴拉的。想抓取这样的url的话，就得一边携带cookie一边搞。

今天遇到的问题就是mediawiki的编辑文章这个操作，wiki默认是要求你登陆才能编辑。不过wiki是开源的，可以改源码设置成不用非得登陆也可以编辑。最开始为了快点看到效果，就是改的源码，记得是LocalSetting.php这个文件，里面有一堆键值对，是用户权限的设置。都是布尔，很好搞。

后来又研究了一下urllib2是怎么携带cookie的：

下面干这么一件事：去知乎登陆，完了进到个人中心的编辑资料页面。就这两步

#encoding:utf-8

import urllib

import urllib2

import cookielib #用来搞cookie的

#第一步：登陆知乎

#拿到一个cookie实例，用来保留cookie，具体怎么保留这个不用操心，一切给http handler(这里就是HTTPCookieProcessor)处理

cookie = cookiellib.CookieJar()

#整一个opener出来，实际上不这么整的话，就像最普通的urllib2.urlopen(url)这样，实际上也是用了一个默认的openrer，只不过今天在这里是明确指定了opener，因为要搞cookie么

#build_opener里面加了一个http handler用来处理所有http请求相关的东西，包括cookie的操作，这里为了搞cookie，所以用了这个cookieprocessor，里面放刚才的cookie实例

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

data = {"email":"xxx","password":"xxx"}
data=urllib.urlencode(data)

request = urllib2.Request("http://www.zhihu.com/login", data)

response = opener.open(request)

#这个时候cookie已经被保存好了

print cookie

#第二步：进入个人中心编辑页面

#注意上面cookie已经保存好了，而且注意是用这个cookie创建了httpcookieprocessor，又用这个httphandler创建了opener，所以这个opener就跟cookie关联上了，那么接下来进入个人中心就直接用这个opener就可以了

response2 = opener.open("http://www.zhihu.com/people/edit")

#完事 谢谢

完事，洗香香去，完了俯卧撑，昨晚昨晚今天胸疼嗷嗷嗷嗷

python urllib2模块携带cookie的更多相关文章

python urllib2 支持自定义cookie
先是在GOOGLE 上找了下, 发现就是只有2种方法,试了下,果然不行. 1, MozillaCookieJar 自定义保存到文件中加载的时候不行,保存没问题. 2,opener.addheader ...
Python urllib2 模块学习笔记
2015.3.6 urllib2的使用方法大致如下 # 定制Handler处理函数 opener = urllib2.build_opener(ProxyHandler, HTTPHandler) ...
Python urllib2 模块
urllib2.urlopen(url, data=None, timeout=<object object>) :用于打开一个URL,URL可以是一个字符串也可以是一个请求对象,data ...
python网页请求urllib2模块简单封装代码
这篇文章主要分享一个python网页请求模块urllib2模块的简单封装代码. 原文转自:http://www.jbxue.com/article/16585.html 对python网页请求模块ur ...
Python的urllib和urllib2模块
Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能.他们两个最显着的差异如下: urllib2可以接受一个Request对象,并以此可以来设置一个URL的h ...
urllib2模块中文翻译与学习 - Python 2.7.8官方文档
总结目的打开指定网址要求了解需要处理的网站的操作流程数据包的构造与提交对可能的响应处理选择合适的处理器(模块内的各种 *Handler()) 核心 urllib.urlencode(que ...
【Python】Python的urllib模、urllib2模块的网络下载文件
因为需要从一些下载一个页PDF文件.但是需要下载PDF有数百个文件,这是不可能用人工点击下载.只是Python有相关模块,所以写一个程序PDF文件下载,顺便熟悉Python的urllib模块和ulrl ...
Python第十三天 django 1.6 导入模板定义数据模型访问数据库 GET和POST方法 SimpleCMDB项目 urllib模块 urllib2模块 httplib模块 django和web服务器整合 wsgi模块 gunicorn模块
Python第十三天 django 1.6 导入模板定义数据模型访问数据库 GET和POST方法 SimpleCMDB项目 urllib模块 urllib2模块 ...
洗礼灵魂，修炼python（54）--爬虫篇—urllib2模块
urllib2 1.简介 urllib2模块定义的函数和类用来获取URL(主要是HTTP的),他提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等.urllib2和urllib差不多,不 ...

随机推荐

new Date() 倒计时
js中单独调用new Date() 显示的结果是:Fri May 20 2015 20:00:00 GMT+0800这种格式的时间 JS获取当前时间戳的方法 JavaScript 获取当前时间戳: 第 ...
Codeforces Round #80 Div.1 D
思路:考虑离线操作,以y为关键字排序,对于y相同的一起操作,然后考虑y的范围,当y<=sqrt(n)时,直接O(n)预处理出f[x]表示f[x]+f[x+y]+f[x+2*y]+..+f[x+k ...
scala - 从合并两个Map说开去 - foldLeft 和 foldRight 还有模式匹配
开发中遇到需求:合并两个Map集合对象(将两个对应KEY的值累加) 先说解决方案: ( map1 )) ) } 这特么什么鬼 (╯‵□′)╯""┻━┻☆))>○<) ...
top工具
top 显示进程所占系统资源能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器. top命令打印出了很多信息,包括系统负载(loadaverage).进程数(Tasks).c ...
jquery 中的 $("#id") 与 document.getElementById("id") 的区别
以前没注意过,认为jquery 中的 $("#air") 与 document.getElementById("air") 是一回事,指的是同一个东西.在今天写 ...
【python】python的二元表达式和三元表达式
二元表达式 x,y=4,3if x>y: s = yelse: s= x print s x if x<y else y 三元表达式: >>> def f(x,y): ...
sublimeformaya
网上没有找到这样的插件自己造了一个 https://github.com/jonntd/connectionmaya 附件列表
ubuntu apt-get常用命令的使用
packagename指代为软件包的名称 apt-get install packagename 安装一个新软件包(参见下文的aptitude) apt-get remove ...
sql server 表空间
在SqlServer2005中,建表时是默认把所有的表都保存在PRIMARY默认表空间中的.当数据库中表很多,并且数据量很大时,会导致数据库性能严重下降,有必要将一些大的表放到不同的表空间中去.主要的 ...
Codeforces Round #198 (Div. 2) —— B
B题是一个计算几何的题,虽然以前看过计算几何的ppt,但一直都没有写过: 昨晚比赛的时候本来想写的,但是怕不熟练浪费时间,太可惜了! 其实没必要选出一个最大的矩形: 以矩形的一条对角线为轴,向上或者向 ...

python urllib2模块携带cookie

python urllib2模块携带cookie的更多相关文章

随机推荐

热门专题