Python cookielib 模块

什么是 cookie ：

指某些网站为了辨别用户身份，进行 session 跟踪而储存在用户本地终端上的数据，通常以 txt 文件形式存储。比如你登录了淘宝，浏览器就会
保存 cookie 信息，这样我们浏览淘宝的其他商家页面就不需要再重新登录了；如果没有保存 cookie 信息，你每切换到另一个页面都要登录一次。

cookielib 一般用于客户端处理 HTTP cookie 信息，通过它可以从服务器端获取 cookie 信息，反过来又可以通过它将获取到的 cookie 发送给服务器

如何获取 cookie ：

#!/usr/bin/env python

#-*- coding:utf-8 -*-

import urllib2

import cookielib

url = 'http://www.baidu.com/'

cookies = cookielib.CookieJar()                   # CookieJar()方法用于收集cookie信息，只有当我们访问一个URL的时候才会有cookie信息，目前只是创建一个cookie对象，里面是没有值的

handler = urllib2.HTTPCookieProcessor(cookies)    # 使用 urllib2 的 HTTPCookieProcessor() 方法，创建一个 cookie 处理器，对收集到的 cookie 进行处理

opener = urllib2.build_opener(handler)            # 使用 urllib2 的 build_opener() 方法，创建一个 opener 实例，该实例用于处理给定的URL链接

response = opener.open(url)                       # opener.open(url) 相当于 urllib2.urlopen(url)，打开链接之后，上面定义的 cookies 就有值了

for cookie in cookies:

    print "%s: %s" % (cookie.name, cookie.value)

[root@localhost ~]$ python 1.py

BAIDUID: 006F1423AFEFD18A005B7C77DF41CF12:FG=1

BIDUPSID: 006F1423AFEFD18A005B7C77DF41CF12

H_PS_PSSID: 1431_21104_18560_26350_22157

PSTM: 1550233508

delPer: 0

BDSVRTM: 0

BD_HOME: 0

爬虫中的用法：

#!/usr/bin/env python

#-*- coding:utf-8 -*-

import re

import sys

import urllib

import urllib2

import cookielib

class AdminSite(object):

    def __init__(self):

        self.login_url = 'http://www.xxxx.com:8899/accounts/login/'    # 登录页面的URL

        self.request_url = 'http://www.xxxx.com:8899/yunwei/index/'    # 要爬取的页面的URL

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36'}

    def getPage(self):

        cookie = cookielib.CookieJar()

        handler = urllib2.HTTPCookieProcessor(cookie)

        self.opener = urllib2.build_opener(handler)

        try:

            request = urllib2.Request(url=self.request_url, headers=self.headers)

            response = self.opener.open(request)

            return response.read()

        except urllib2.URLError, e:

            if hasattr(e, 'code'):

                print '连接服务器失败，错误代码：%s' % e.code

            if hasattr(e, 'reason'):

                print '连接服务器失败，失败原因：%s' % e.reason

            else:

                print '连接服务器失败，失败原因：%s' % e

            sys.exit(1)

    def getToken(self):

        page = self.getPage()

        regular = re.compile(r"<form.*?<input.*?value='(.*?)'.*?>", re.S)

        token = regular.search(page)

        if token:

            return token.group(1)

        else:

            return None

    def login(self):

        form_data = {'csrfmiddlewaretoken': self.getToken(),

                     'username': 'xxxxxx',

                     'password': 'xxxxxx',

                     'next': '/yunwei/index/'}

        self.post_data = urllib.urlencode(form_data)

        try:

            request = urllib2.Request(url=self.login_url, data=self.post_data, headers=self.headers)

            response = self.opener.open(request)

            print response.read()

            return response.read()

        except urllib2.URLError, e:

            if hasattr(e, 'code'):

                print '连接服务器失败，错误代码：%s' % e.code

            if hasattr(e, 'reason'):

                print '连接服务器失败，失败原因：%s' % e.reason

            else:

                print '连接服务器失败，失败原因：%s' % e

            sys.exit(1)

if __name__ == '__main__':

    obj = AdminSite()

    obj.login()

Python cookielib 模块的更多相关文章

python—cookielib模块对cookies的操作
最近用python写爬虫爬了点数据,确实是很好用的东西,今天对python如何操作cookie进行一下总结. python内置有cookielib模块操作cookie,配合urllib模块就可以了很轻 ...
cookielib模块基础学习
# -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' import cookielib #主要用于处理http客户端的co ...
【转】cookielib模块
cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.例如可以利用本模块的CookieJar类的对象来 ...
urllib2模块、cookielib模块
urllib2模块 urllib模块和urllib模块类似,用来打开URL并从中获取数据.与urllib模块不同的是,urllib模块不仅可以使用urlopen() 函数还可以自定义Opener来访问 ...
Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
Python Logging模块的简单使用
前言日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
python基础-模块
一.模块介绍 ...

随机推荐

printf家族探秘
有一个函数,是我们从学习c语言就开始的第一天就接触的,那就是printf函数,可是这个家族的函数,带给我们的便利却不是一点半点,所以写一篇用法总结. 1.printf函数格式化输出,可以输出八进制, ...
分享一款基于jquery的圆形动画按钮
之前为大家介绍过一款纯css3实现的圆形旋转分享按钮.今天要给大家带来一款基于jquery的圆形动画按钮.这款按钮鼠标经过的时候以边框转圈,然后逐渐消息,在实例中给出了四种颜色的demo.效果图如下: ...
javascript 常用对象
<!doctype html> <head> <script type="text/javascript"> /* ps:需要注意的是部分的方法 ...
C语言 · 陶陶摘苹果
算法提高陶陶摘苹果时间限制:1.0s 内存限制:256.0MB 问题描述陶陶家的院子里有一棵苹果树,每到秋天树上就会结出n个苹果.苹果成熟的时候,陶陶就会跑去摘苹果.陶陶有个3 ...
Nhibernate 一对一，一对多，多对多成功映射
前语: 在Nhibernate xml 的文件配置上,一对一和多对多的配置比较简单,容易出错的反而是一对多(多对一)上. 1.一对一关联关系的映射: <one-to-one name=" ...
[LintCode]删除链表中的元素
问题分析: 声明当前指针和上一个指针即可. 问题求解: public class Solution { public ListNode removeElements(ListNode head, in ...
Entity Framework开发介绍
一.Entity Framework概要 Entity Framework是微软的Object Relational Mapper(对象关系映射),也就是我们平常说的ORM,它可以让应用程序开发者将关 ...
[R语言统计]频数表
频数表在统计学中是一个非常基本并且重要的概念,我们这里就来讲解它的基本用法. 首先我们需要载入数据,并查看数据的基本信息 install.packages('vcd') #安装vcd包,其中有可以利用 ...
Hadoop集群作业调度算法
转自:http://blog.csdn.net/chen_jp/article/details/7983076 Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先 ...
selenium测试（Java）--下载文件（十六）
下载文件需要在Firefox 的profile属性中配置一些参数,如下面的代码: package com.test.download; import java.io.File; import org. ...

Python cookielib 模块

Python cookielib 模块的更多相关文章

随机推荐

热门专题