利用cookies获取登录后的网页

　　众所周知，HTTP连接是无状态的，那么问题来了，怎么记录用户的登录信息呢？通常的做法是用户第一次发送HTTP请求时，在HTTP Server端生成一个SessionID，SessionID会对应每个会话的状态（比如是否登录，等等），并且将SessionID保存在浏览器的cookies中。我们登录一个网页后，打开另外一个窗口访问相同的网页不需要登录，就是因为两个网页都对应同一个cookies。

　　有时在做python爬虫时，需要访问登录后才可以访问的网页，利用已经登录的cookie文件就可以达到此目的。下面以迅雷网为例来做实验，实验平台为Linux。

　　1. 首先在Firefox浏览器端登录迅雷网，使用Firebug插件导出cookies。

　　2. 修改cookies的格式，假设文件名为xunlei.txt，正确的格式如下：

 # Netscape HTTP Cookie File.

 # Generated by Wget on -- ::.

 # Edit at your own risk.

 .dynamic.i.xunlei.com   TRUE    /   FALSE     __utma  74633479.1276576155.1435422349.1435422349.1435422349.1

 .i.xunlei.com   TRUE    /   FALSE     __utma  112570076.1792933177.1435422325.1435422325.1435422325.1

 .dynamic.i.xunlei.com   TRUE    /   FALSE     __utmb  74633479.1.10.1435422349

 .i.xunlei.com   TRUE    /   FALSE     __utmb  112570076.1.10.1435422325

 .dynamic.i.xunlei.com   TRUE    /   FALSE     __utmc

 .i.xunlei.com   TRUE    /   FALSE     __utmc

 .i.xunlei.com   TRUE    /   FALSE     __utmt

 .dynamic.i.xunlei.com   TRUE    /   FALSE     __utmz  74633479.1435422349.1.1.utmcsr=i.xunlei.com|utmccn=(referral)|utmcmd=referral|utmcct=/login.html

 .i.xunlei.com   TRUE    /   FALSE     __utmz  112570076.1435422325.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)

 dynamic.i.xunlei.com    FALSE   /   FALSE     __xltjbr

 dynamic.i.xunlei.com    FALSE   /   FALSE     _s19    1435770994546b1435422324953b2bhttp%3A//dynamic.i.xunlei.com/user
# cookies行数比较多，就不写了，有三个地方注意：
# 1.第一行不能少，并且一个字符都不能错。
# 2.格式要严格为（空白处为TAB）：

域 [TRUE或FALSE]　　/　[TRUE或FALSE]　　过期时间戳　　名称　　内容

　　3. 使用python代码读取xunlei.txt，并访问登录后才能访问的网页，例如：http://dynamic.i.xunlei.com/user

下面为源代码：

 import cookielib, urllib2

 cookie = cookielib.MozillaCookieJar()

 cookie.load("xunlei.txt")

 handle=urllib2.HTTPCookieProcessor(cookie)

 opener = urllib2.build_opener(handle)

 urllib2.install_opener(opener)

 url = "http://dynamic.i.xunlei.com/user"

 req = urllib2.Request(url)

 response = urllib2.urlopen(req)

 print response.read()

　　4. 打印出来的代码即为我登录后，在http://dynamic.i.xunlei.com/user看到的内容。

　　以上的原理与CSRF攻击的原理类似，CSRF攻击的就是利用非法获得用户cookies，伪装成用户进行操作。针对这种攻击，web站点可以生成token，HTTP Server会验证每次请求的token，来避免CSRF攻击，例如Django的CsrfViewMiddleware。

　　但是token依然被放在了cookies中，依然可以进行CSRF攻击，只不过攻击的方式复杂了些。

利用cookies获取登录后的网页的更多相关文章

Postman接口测试：自动获取登录后的cookie并设置环境变量
在对网站进行接口测试的时候,很多请求往往是需要带登录的cookie才能请求成功的,一般来说,可以用抓包软件(fiddler,浏览器的F12)来查看登录后的cookie,并把它设置到postman的环境 ...
Jmeter通过正则表达式获取登录后token
1.引用名称:即参数化,便于后面调用登录后获取的token 2.正则表达式:"token":"([0-9 a-z -]+?)" 3.模板:设置为 "$ ...
接口测试，获取登录后的cookies
参见: http://www.cnblogs.com/testwang/p/6023394.html
c#使用WebClient登录网站抓取登录后的网页
C#登录网站实际上就是模拟浏览器提交表单,然后记录浏览器响应返回的会话Cookie值,再次发送请求时带着这个会话cookie值去请求就可以实现模拟登录的效果了. 如下类CookieAwareWebCl ...
Python3.6下的Requests登录及利用Cookies登录
利用Python中的Requests模块可以实现Post,Get等发送功能,我以登录某网站为例,记录使用Post发送用户名.密码及图形验证码,以及通过Cookies直接登录的内容. 1.利用POST发 ...
Python手动构造Cookie模拟登录后获取网站页面内容
最近有个好友让我帮忙爬取个小说,这个小说是前三十章直接可读,后面章节需要充值VIP可见.所以就需要利用VIP账户登录后,构造Cookie,再用Python的获取每章节的url,得到内容后再使用 PyQ ...
第14.5节利用浏览器获取的http信息构造Python网页访问的http请求头
一. 引言在<第14.3节使用google浏览器获取网站访问的http信息>和<第14.4节使用IE浏览器获取网站访问的http信息>中介绍了使用Google浏览器和IE ...
php 微信登录公众号获取用户信息微信网页授权
php 微信登录公众号获取用户信息微信网页授权先自己建立两个文件: index.php 和 getUserInfo.php index.php <?php //scope=snsap ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...

随机推荐

异步编程设计模式Demo - AsyncComponentSample
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.C ...
AsEnumrable和AsQueryable的区别
http://www.cnblogs.com/jianglan/archive/2011/08/11/2135023.html 在写LINQ语句的时候,往往会看到.AsEnumerable() 和 . ...
帮小黎解决问题C++巩固获得数字每个位置上的数
现在有一个数字 a= 12345; 想要取得这个数字上的没一个数字使用除法 +模除的方法可以获得原理:除(/)得到的是商模除(%)的到的是余数采用这种方式,先将要求的数的某一位 ...
iOS 证书与签名解惑详解
iOS 证书与签名解惑详解分类: iPhone2012-06-06 19:57 9426人阅读评论(1) 收藏举报 iosxcodecryptographyappleiphone测试目录 ...
LeetCode_Subsets II
Given a collection of integers that might contain duplicates, S, return all possible subsets. Note: ...
批量删除Kindle Personal Documents
javascript:(function(){ var v = new RegExp("amazon"); if (!v.test(document.URL)) { return ...
VS下 dllimport与dllexport作用与区别
我相信写WIN32程序的人,做过DLL,都会很清楚__declspec(dllexport)的作用,它就是为了省掉在DEF文件中手工定义导出哪些函数的一个方法.当然,如果你的DLL里全是C++的类的话 ...
ImageMaigck不支持中文路径的问题
不知道咋回事. 回顾下: char* pTest1 = "测试.txt"; wchar_t* pTest2 = L"测试.txt"; 以上是pTest1指向的内 ...
android批量文件上传（android批量图片上传）
项目中多处用到文件批量上传功能,今天正好解决了此问题,在此写出来,以便日后借鉴. 首先,以下架构下的批量文件上传可能会失败或者不会成功: 1.android客户端+springMVC服务端:服务端 ...
转：PO BO VO DTO POJO DAO概念及其作用
J2EE开发中大量的专业缩略语很是让人迷惑,尤其是跟一些高手讨论问题的时候,三分钟就被人家满口的专业术语喷晕了,PO VO BO DTO POJO DAO,一大堆的就来了(听过老罗对这种现象的批判的朋 ...

利用cookies获取登录后的网页

利用cookies获取登录后的网页的更多相关文章

随机推荐

热门专题