爬虫之FileCookieJar

简介

虽然CookieJar模块能够做到给请求设置cookie，但是它的cookie是保存在内存里的，每次用都需要重新设置，

这就衍生了一个它的子类---FileCookieJar，它可以将cookie保存在文件中，然后直接使用就可了

示例

cookie的保存

from urllib import request,parse

from http import cookiejar

# 创建filecookiejar实例对象

# 它需要一个参数，既cookie保存的位置

filename = 'cookie.txt'

cookie = cookiejar.FileCookieJar(filename)

# 根据创建的cookie生成cookie的管理器

cookie_handle = request.HTTPCookieProcessor(cookie)

# 创建http请求管理器

http_handle = request.HTTPHandler()

# 创建https管理器

https_handle = request.HTTPSHandler()

# 创建求求管理器，将上面3个管理器作为参数属性

# 有了opener，就可以替代urlopen来获取请求了

opener =  request.build_opener(cookie_handle,http_handle,https_handle)

def login():

    '''

    负责初次登录

    需要传递用户名和密码，来获取登录的cookie凭证

    '''

    # 登录url，需要从登录form的action属性中获取

    url = 'http://www.renren.com/PLogin.do'

    # 登录所需要的数据，数据为字典形式，

    # 此键值需要从form扁担中对应的input的name属性中获取

    data = {

        'email':'136808069@qq.com',

        'password':'123456'

    }

    # 将数据解析成urlencode格式

    data = parse.urlencode(data)

    req = request.Request(url,data=data)

    # 正常是用request.urlopen(),这里用opener.open()发起请求

    response = opener.open(req)

    # 保存cookie文件

    cookie.save()

if __name__ == '__main__':

    '''

    执行login函数

    '''

    login()

cookie的调用

from urllib import request,parse

from http import cookiejar

# 创建cookiejar实例对象

cookie = cookiejar.FileCookieJar()

# 读取已经保存的cookie文件

# 读取之后，就无需登录，直接访问主页即可

cookie.load('cookie.txt')

# 根据创建的cookie生成cookie的管理器

cookie_handle = request.HTTPCookieProcessor(cookie)

# 创建http请求管理器

http_handle = request.HTTPHandler()

# 创建https管理器

https_handle = request.HTTPSHandler()

# 创建求求管理器，将上面3个管理器作为参数属性

# 有了opener，就可以替代urlopen来获取请求了

opener =  request.build_opener(cookie_handle,http_handle,https_handle)

def getHomePage():

    '''

    获取登录后的页面

    '''

    # 此url是登录后的链接地址

    url = 'http://www.renren.com/965187997/profile'

    # 如果已经执行了上面的login函数，

    # 那么此时的opener已经是包含了cookie信息的一个opener对象

    res = opener.open(url)

    html = res.read().decode()

    with open('renren.html','w') as f:

        f.write(html)

if __name__ == '__main__':

    getHomePage()

爬虫之FileCookieJar的更多相关文章

Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)
Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网) 上一篇介绍了利用CookieJar访问人人网,本篇将使用filecookiejar将cookie以文件形式 ...
Python_爬虫2
URLError异常处理大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本 ...
Python爬虫入门：Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
python爬虫(六)_urllib2：handle处理器和自定义opener
本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页 ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
python爬虫入门（二）Opener和Requests
Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener( ...
Python爬虫入门这一篇就够了
何谓爬虫所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本.万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息. 爬虫三要素抓取分析存储基础 ...
001 爬虫的基本概念以及urllib的request和parse
1.http的请求方式: get请求优点:比较便捷缺点:不安全.长度有限制post请求优点:比较安全.数据整体没有限制.可以上传文件putdelete(删除一些信息) 发送网络请求(可以带一定的 ...

随机推荐

[system]c/c++调用cat命令
因为cat并不是一个带返回的命令,而是输出到标准输出.所以使用system("cat /sys/class/gpio/...."); 得不到我们想要的结果. 下面的/bin/ls同 ...
[uboot]Issue list
"crsctl check crs" command hangs at EVMD check
Pre-11gR2: "crsctl check crs" command hangs at EVMD check (文档 ID 1578875.1) APPLIES TO: ...
Python 资料性网站。
伯乐在线:http://blog.jobbole.com/category/python/ http://blog.chinaunix.net/uid/22334392/cid-24327-list- ...
C语言若干知识点归记
一.C语言指针学习架构 1.基本数据类型---指针 2.字符串---指针 3.数组---指针 4.函数---指针 5.结构体---指针 6.共用体---指针 7.枚举---指针 8.位域---指针 9 ...
Python+PyQt5：停靠组件QDockWidget的实现
QMainWindow主窗体中放置停靠组件QDockWidget的实现流程: 第一步:创建QMainWindow窗体,这是承载QDockWidget的主体第二步:创建QDockWidget组件实例, ...
Hibernate_day03--课程安排_表之间关系_一对多操作
Hibernate_day03 上节内容今天内容表与表之间关系回顾(重点) Hibernate的一对多操作(重点) 一对多映射配置(重点) 一对多级联操作一对多级联保存一对多级联删除一对多修 ...
Hibernate_day02--课程安排_主键生成策略_对实体类crud操作_实体类对象状态
Hibernate_day02 上节内容今天内容实体类编写规则 Hibernate主键生成策略实体类操作对实体类crud操作添加操作根据id查询修改操作删除操作实体类对象状态(概念) ...
系统管理模块_岗位管理_改进_使用ModelDroven方案_套用美工写好的页面效果_添加功能与修改功能使用同一个页面
改进_使用ModelDroven方案 @Controller @Scope("prototype") public class RoleAction extends ActionS ...
Leetcode: Palindrome Partition I II
题目一, 题目二思路 1. 第一遍做时就参考别人的, 现在又忘记了做的时候使用的是二维动态规划, 超时加超内存 2. 只当 string 左部分是回文的时候才有可能减少 cut 3. 一维动规. ...

爬虫之FileCookieJar

简介

示例

cookie的保存

cookie的调用

爬虫之FileCookieJar的更多相关文章

随机推荐

热门专题