python 爬虫之为什么使用opener对象以及为什么要创建全局默认的opener对象

基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能。要支持这些功能，必须使用build_opener()函数来创建自己的自定义Opener对象。

install_opener(opener) 安装opener作为urlopen()使用的全局URL opener，即意味着以后调用urlopen()时都会使用安装的opener对象。opener通常是build_opener()创建的opener对象。

一些复杂情况详细解决办法：

1. cookie处理

如果要管理HTTP cookie，需要创建添加了HTTPCookieProcessor处理程序的opener对象。默认情况下。HTTPCookieProcessor使用CookieJar对象，将不同类型的CookieJar对象作为HTTPCookieProcessor的参数提供，可支持不同的cookie处理。如下面代码：

`1`	`mcj=cookielib.MozillaCookieJar("cookies.txt")`

`2`	`cookiehand=HTTPCookieProcessor(mcj)`

`3`	`opener=urllib2.build_opener(cookiehand)`

`4`	`u=opener.open(http://www.baidu.com)`

2. 代理

urllib2会自动检测代理设置，默认使用环境变量http_proxy 来设置 HTTP Proxy通常情况下，这是很有帮助的，因为也可能造成麻烦（因为通过代理获取本地URL资源时会被阻止，因此如果你正在通过代理访问Internet，那么使用脚本测试本地服务器时必须阻止urllib2模块使用代理）。因此，如果想在程序中明确Proxy的使用而不受环境变量的影响，可以通过创建ProxyHandler实例，并将实例作为build_opener()的参数来实现。如下面代码：

`01`	`import` `urllib2`

02

`03`	`enable_proxy` `=` `True`

`04`	`proxy_handler` `=` `urllib2.ProxyHandler({"http"` `:` `'http://some-proxy.com:8080'})`

`05`	`null_proxy_handler` `=` `urllib2.ProxyHandler({})`

06

`07`	`if` `enable_proxy:`

`08`	`opener` `=` `urllib2.build_opener(proxy_handler)`

09 else:

`10`	`opener` `=` `urllib2.build_opener(null_proxy_handler)`

11

`12`	`urllib2.install_opener(opener)`

3. 一个简单的模拟登录例子：

view source

print ?

01 #模拟登录

`02`	`cj` `=` `cookielib.CookieJar()`

03 #用户名和密码

`04`	`post_data` `=` `urllib.urlencode({'username':` `'[nowamagic]',` `'password':` `'[mypass]',` `'pwd':` `'1'})`

05 #登录路径

`06`	`#path = 'http://www.xiaomi.com/pass/serviceLoginAuth2'`

`07`	`path` `=` `'http://www.nowamagic.net/'`

`08`	`cookieHandle` `=` `urllib2.HTTPCookieProcessor(cj)`

`09`	`opener` `=` `urllib2.build_opener(cookieHandle)`

`10`	`#url = opener.open('http://www.baidu.com')`

`11`	`#page = url.read()`

12

`13`	`opener.addheaders` `=` `[('User-agent',` `'Opera/9.23')]`

`14`	`urllib2.install_opener(opener)`

`15`	`req` `=` `urllib2.Request(path, post_data)`

`16`	`conn` `=` `urllib2.urlopen(req)`

`17`	`result` `=` `conn.geturl()`

`18`	`#print path`

`19`	`#message = {`

`20`	`#"header": conn.info(),`

`21`	`#"status": conn.getcode(),`

`22`	`#"url": conn.geturl(),`

23 #}

24

`25`	`self.render("nowamagic.html",message=result)`

python 爬虫之为什么使用opener对象以及为什么要创建全局默认的opener对象的更多相关文章

python爬虫中scrapy框架是否安装成功及简单创建
判断框架是否安装成功,在新建的爬虫文件夹下打开盘符中框输入cmd,在命令中输入scrapy,若显示如下图所示,则说明成功安装爬虫框架: 查看当前版本:在刚刚打开的命令框内输入scrapy versio ...
python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
python爬虫之Cookie
由于http协议是无状态协议(假如登录成功,当访问该网站的其他网页时,登录状态消失),此时,需要将会话信息保存起来,通过cookie或者session的方式 cookie 将所有的回话信息保存在客户端 ...
python爬虫第三天
DebugLog实战有时候我们需要在程序运行时,一边运行一边打印调试日志.此时需要开启DebugLog. 如何开启: 首先将debugleve ...
python爬虫(六)_urllib2：handle处理器和自定义opener
本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页 ...
python爬虫入门（二）Opener和Requests
Handler和Opener Handler处理器和自定义Opener opener是urllib2.OpenerDirector的实例,我们之前一直在使用urlopen,它是一个特殊的opener( ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...

随机推荐

python之路----钻石继承
钻石继承继承顺序 class A(object): def test(self): print('from A') class B(A): def test(self): print('from B ...
联合体union的详解
1.概述联合体union的定义方式与结构体一样,但是二者有根本区别. 在结构中各成员有各自的内存空间,一个结构变量的总长度是各成员长度之和.而在“联合”中,各成员共享一段内存空间,一个联合变量的长度 ...
mysql的数据类型和字符集
MySQL的数据类型 MySQL数据库支持的数据类型主要有以下几种: 整型浮点型字符 BLOB型枚举和集合类型 JSON类型(MySQL5.7新增加的支持) 整型整数类型是数据库中最基本的数据 ...
堆（Heap）
两种简单实现第一种链表第一种实现利用链表存储数据,每次在表头插入元素:getMin 时,遍历一遍线性表找到最小的元素,然后将之删除.值返回.(getMax 同理). 链表的在头节点的插入和删除时 ...
ArcThemALL！5.1：解压、脱壳、压缩样样精通
原文链接:http://www.ithome.com/html/soft/57033.htm ArcThemALL!软件主要功能: 1.支持压缩和解压功能,支持常用的7z.zip.cab.iso.ra ...
TCP 的连接建立：采用三报文握手
PyQt5 - 01 使用qt creator创建第一个pyqt5界面程序
1. 安装Qt Creator qt creator下载点我 2. 利用Qt Creator创建界面点击文件 -> 新建文件或项目选择Qt -> Qt设计师界面类选择一个模版,创建一 ...
No compatible targets were found Do you wish to a add new Android Virtual Device ?
运行一个Android小程序时提示: No compatible targets were found Do you wish to a add new Android Virtual Device ...
Linux CentOS 7 下 JDK 安装与配置
前言简单记录一下在CentOS 7中安装配置JDK 1.7的全过程~ ( 安装别的版本或者jre一样) 下载首先是jdk 1.7 64bit & 32bit的下载地址: jdk-7u79 ...
springboot中配置主从redis
测试redis的主从配置 redis实例文件夹名称如下 redis_master_s redis_slaver1_s redis_slaver2_s redis.conf文件 master的redi ...

python 爬虫之为什么使用opener对象以及为什么要创建全局默认的opener对象

python 爬虫之为什么使用opener对象以及为什么要创建全局默认的opener对象的更多相关文章

随机推荐

热门专题