运用cookie登陆人人网爬取数据

　　浏览器访问WEB服务器的过程

在用户访问网页时，不论是通过URL输入域名或IP，还是点击链接，浏览器向WEB服务器发出了一个HTTP请求（Http Request），WEB服务器接收到客户端浏览器的请求之后，响应客户端的请求，发回相应的响应信息（Http Response），浏览器解析引擎，排版引擎分析返回的内容，呈现给用户。WEB应用程序在于服务器交互的过程中，HTTP请求和响应时发送的都是一个消息结构

　　什么是cookie

cookie在http请求和http响应的头信息中，cookie是消息头的一种很重要的属性. 当用户通过浏览器首次访问一个域名时，访问的WEB服务器会给客户端发送数据，以保持WEB服务器与客户端之间的状态保持，这些数据就是Cookie，它是 Internet 站点创建的 ,为了辨别用户身份而储存在用户本地终端上的数据，Cookie中的信息一般都是经过加密的，Cookie存在缓存中或者硬盘中，在硬盘中的是一些小文本文件,当你访问该网站时，就会读取对应网站的Cookie信息，Cookie有效地提升了我们的上网体验。一般而言，一旦将 Cookie 保存在计算机上，则只有创建该 Cookie 的网站才能读取它。

　　为什么需要cookie

Http协议是一个无状态的面向连接的协议，Http协议是基于tcp/ip协议层之上的协议，当客户端与服务器建立连接之后，它们之间的TCP连接一直都是保持的，至于保持的时间是多久，是通过服务器端来设置的，当客户端再一次访问该服务器时，会继续使用上一次建立的连接，但是，由于Http协议是无状态的，WEB服务器并不知道这两个请求是否同一个客户端，这两次请求之间是独立的。为了解决这个问题， Web程序引入了Cookie机制来维护状态.cookie可以记录用户的登录状态，通常web服务器会在用户登录成功后下发一个签名来标记session的有效性，这样免去了用户多次认证和登录网站。记录用户的访问状态。

　　比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的，那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

　　cookie的种类

会话Cookie(Session Cookie)：这个类型的cookie只在会话期间内有效，保存在浏览器的缓存之中，用户访问网站时，会话Cookie被创建，当关闭浏览器的时候，它会被浏览器删除。持久Cookie(Persistent Cookie): 这个类型的cookie长期在用户会话中生效。当你设置cookie的属性Max-Age为1个月的话，那么在这个月里每个相关URL的http请求中都会带有这个cookie。所以它可以记录很多用户初始化或自定义化的信息，比如什么时候第一次登录及弱登录态等。 Secure cookie：安全cookie是在https访问下的cookie形态，以确保cookie在从客户端传递到Server的过程中始终加密的。 HttpOnly Cookie ：这个类型的cookie只能在http(https)请求上传递，对客户端脚本语言无效，从而有效避免了跨站攻击。第三方cookie：第一方cookie是当前访问的域名或子域名下的生成的Cookie。第三方cookie:第三方cookie是第三方域名创建的Cookie。

　　cookie的构成

Cookie是http消息头中的一种属性，包括：Cookie名字（Name）Cookie的值（Value），Cookie的过期时间（Expires / Max-Age），Cookie作用路径（Path），Cookie所在域名（Domain），使用Cookie进行安全连接（Secure）。前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小（Size，不同浏览器对Cookie个数及大小限制是有差异的）。

　　urllib与urllib2库的区别

1、为什么它们总是成对出现

　　urllib与urllib2都做与url请求相关的操作，但它们提供不同的功能.

　　urllib2.urlopen()可以接受一个Request对象或一个url(可以在request对象中设置data,headers等)，以实现高级的url请求，但无urlencode功能。　　urllib.urlopen()只能接受一个url，所以只能实现简单的url请求，但urllib有urlencode功能。

　　urllib.urlencode功能是什么呢？它可以把字典变成url需要的字符串！

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# __author__:kzg

# 要获取数据的url及referer

tUrl = 'http://product.weather.com.cn/alarm/webdata/1012305-20170820132000-0902.html'

reFer = 'http://www.weather.com.cn/alarm/newalarmcontent.shtml?file=1012305-20170820132000-0902.html'

import urllib2

import urllib

# 定义一个request实例

r = urllib2.Request(url=tUrl)

# 给request添加头信息

r.add_header('Referer',reFer)

r.add_header('User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36')

# 给request添加post数据（此时的请求为post，而不再是get）

r.add_data(urllib.urlencode({'name':'kong','age':15}))

# 打印reauest实例中的header和data

print(r.headers)

print(r.data)

结果：

{'Referer': 'http://www.weather.com.cn/alarm/newalarmcontent.shtml?file=1012305-20170820132000-0902.html', 'User-agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}

age=15&name=kong

2、opener

　　urllib2.urlopen:　是opener的一个特殊实例，也是默认的opener,传入的参数较少，仅仅有url,data,timeout,headers等。

　　通过阅读源码我们知道，urllib2.urlopen(url)其实也是调用opener.open(url)来请求url,但是默认的opener并不支持cookie.我们可以使用HTTPCookieProcessor来创建一个支持cookie的opener，它需要传入一个cookie容器。

3、cookielib

　　cookielib模块的主要作用是：提供一个对象来存储cookie,然后带入urllib2中去访问网站。我们可以利用它的cookiejar类的对象来捕获cookie，并在后续连接请求时自动重新发送，来实现模拟登陆功能。

　　该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

　　它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

　　实例讲解

　　1、自动获取cookie（CookieJar）

#!/usr/bin/env python

# _*_ coding:utf-8 _*_

import urllib

import urllib2

import cookielib

loginUrl='http://www.renren.com/PLogin.do'

# 创建cookie容器

cj = cookielib.CookieJar()

# 创建支持cookie的opener

handler = urllib2.HTTPCookieProcessor(cj)

opener =  urllib2.build_opener(handler)
urllib2.install_opener(opener)

# 使用此opener来请求url

response = opener.open(loginUrl)

# 查看获取到的cookie

for each in cj:

    print each.name,each.value

　　2、在自动获取cookie的同时写入到文件中(MozillaCookieJar)

#!/usr/bin/env python

# _*_ coding:utf-8 _*_

import urllib

import urllib2

import cookielib

loginUrl='http://www.renren.com/PLogin.do'

# 创建cookie容器

cj = cookielib.MozillaCookieJar('cookie.txt')

# 创建支持cookie的opener

handler = urllib2.HTTPCookieProcessor(cj)

opener =  urllib2.build_opener(handler)

# 使用此opener请求url

response = opener.open(loginUrl)

#查看获取到的cookie

for each in cj:

    print each.name,each.value
#保存

cj.save(ignore_expires=True,ignore_discard=True)

　　此例与上例的不同之处在于使用了MozillaCookieJar，它既有自动获取cookie的功能,又具有与文件的交互。

关于最后save方法的两个参数在此说明一下：

官方解释如下：

　　ignore_discard: save even cookies set to be discarded.
　　ignore_expires: save even cookies that have expired.The file is overwritten if it already exists

3、从文件中加载cookie

#!/usr/bin/env python

# _*_ coding:utf-8 _*_

import urllib

import urllib2

import cookielib

loginUrl='http://www.renren.com/PLogin.do'

# 创建cookie容器

cj = cookielib.MozillaCookieJar()

cj.load('cookie.txt',ignore_discard=True,ignore_expires=True)

# 创建支持cookie的opener

handler = urllib2.HTTPCookieProcessor(cj)

opener =  urllib2.build_opener(handler)

# 使用此opener来请求url

response = opener.open(loginUrl)

4、模拟登陆网站（以人人网为例）

准备：要登陆人人网需要哪些信息呢？

　　1、登陆地址url

　　2、登陆用户名属性

　　3、登陆密码属性

如图所示：

要实现的事情：

　　使用cookie自动登陆网站，并获取我的主页资料信息。

首先来个截图，预先看看我的主页资料信息的HTML结构吧。

示例代码：

#!/usr/bin/env python

# _*_ coding:utf-8 _*_

import urllib

import urllib2

import cookielib

class renren_login(object):

    def __init__(self):

        self.name = ''

        self.pwd = ''

        # 设置存储cookie的容器

        self.cj = cookielib.CookieJar()

        # 使opener支持cookie

        self.handler = urllib2.HTTPCookieProcessor(self.cj)

        # 创建一个支持cookie的opener

        self.opener = urllib2.build_opener(self.handler)

        urllib2.install_opener(self.opener)

    def set_user_pwd(self,username,password):

        self.name = username

        self.pwd = password

    def login(self,url):

        # 将字典对象编码带到url中

        post_data = urllib.urlencode({'email':self.name,'password':self.pwd})

        # 简单的反爬

        head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}

        # 将提交信息封装成request对象

        req = urllib2.Request(url,data=post_data,headers=head)

        # 对request对象发出请求

        response = self.opener.open(req)

        # 判断url是否跳转

        if response.url != url:

            return True

        else:

            return False

            exit(1)

    def get_response(self,url):

        # 读取请求到的内容

        response = self.opener.open(url).read()

        return response

if __name__ == '__main__':

    #设置网站的登陆信息

    LoginUrl = 'http://www.renren.com/PLogin.do'

    username = '15201417639'

    password = 'kongzhagen.com'

    #初始化类

    cls = renren_login()

    #设置用户名及密码

    cls.set_user_pwd(username,password)

    #登陆网站:返回主站的地址 http://www.renren.com/913043576，登陆成功

    if cls.login(LoginUrl):

        # 我的主页资料信息

        url='http://follow.renren.com/list/913043576/pub/v7'

        ret = cls.get_response(url)

        print ret.decode('utf-8')

OK,完工啦，把返回的结果ret与上面的主页资料信息的HTML比比看吧。

额，还不成功，我的用户名和密码都改啦，换成你自己的试试！！

运用cookie登陆人人网爬取数据的更多相关文章

scrapy实战--登陆人人网爬取个人信息
今天把scrapy的文档研究了一下,感觉有点手痒,就写点东西留点念想吧,也做为备忘录.随意写写,看到的朋友觉得不好,不要喷我哈. 创建scrapy工程 cd C:\Spider_dev\app\scr ...
python模拟浏览器爬取数据
爬虫新手大坑:爬取数据的时候一定要设置header伪装成浏览器!!!! 在爬取某财经网站数据时由于没有设置Header信息,直接被封掉了ip 后来设置了Accept.Connection.User-A ...
模拟登陆并爬取Github
因为崔前辈给出的代码运行有误,略作修改和简化了. 书上例题,不做介绍. import requests from lxml import etree class Login(object): def ...
如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...
爬虫必知必会（6）_提升scrapy框架爬取数据的效率之配置篇
如何提升scrapy爬取数据的效率:只需要将如下五个步骤配置在配置文件中即可增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_ ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
借助Chrome和插件爬取数据
工具 Chrome浏览器 TamperMonkey ReRes Chrome浏览器 chrome浏览器是目前最受欢迎的浏览器,没有之一,它兼容大部分的w3c标准和ecma标准,对于前端工程师在开发过程 ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...

随机推荐

D - Mysterious Present
这个题和求最长递增序列的题类似,为了能输出一组可行的数据,我还用了一点儿链表的知识. Description Peter decided to wish happy birthday to his f ...
HDU 2291
http://acm.hdu.edu.cn/showproblem.php?pid=2291 读题读的烦死了,今天果真不适合做题题意:给两个n*n的矩阵,第一个代表一个人战胜一个人可以得到的经验值, ...
HDU 4911
http://acm.hdu.edu.cn/showproblem.php?pid=4911 一场多校的签到题,树状数组离散化求逆序数 #include <iostream> #inclu ...
使用.bat 文件，批量编译项目文件。
使用.bat 文件,批量编译项目文件. 2008-6-1来源:www.aspcool.com 作者:PCJIM 点击:次 path %path%;D:\Program Files\Microsof ...
第二个Sprint冲刺第四天
讨论地点:宿舍讨论成员:邵家文.李新.朱浩龙.陈俊金今天的发展,探讨了统计功能的问题: 一.统计数据针对的是什么功能? 1.初衷是针对计时的填空题,至于其它功能统不统计,那要看开发的进度. 二.对 ...
dede文章摘要字数的设置方法
本文转自:http://blog.csdn.net/yxwmzouzou/article/details/17491991 在织梦系统中(针对5.7版本),文章摘要(可以通过以下四种相关标签调用)被设 ...
搭建一个免费的，无限流量的Blog----github Pages和Jekyll入门
喜欢写Blog的人,会经历三个阶段. 第一阶段,刚接触Blog,觉得很新鲜,试着选择一个免费空间来写. 第二阶段,发现免费空间限制太多,就自己购买域名和空间,搭建独立博客. 第三阶段,觉得独立博客的管 ...
Single Number II ——位操作
题意: 给定两个32位的整数 N 和 M,以及表示比特位置的 i 与 j .编写一个方法,将 M 插入 N,使得 M 从 N 的第 j 位开始,到第 i 位结束.假定从 j 位到 i 位足以容纳M. ...
服务器重写技术：rewrite
rewrite 是一种服务器的重写技术,它可以使得服务器支持 URL 重写,是一种最新流行的服务器技术. 主要功能:限制特定IP访问网站,实现URL的重写.
rsync 使用示例
导读 Rsync(remote sync) 是用于同步某一位置文件和目录到另一位置的有效方法.备份的位置可以在本地服务器或远程服务器.本站之前亦有介绍rsync的安装配置和教程,详看<rsync ...

运用cookie登陆人人网爬取数据

运用cookie登陆人人网爬取数据的更多相关文章

随机推荐

热门专题