urllib2中自定义opener

正常用Python抓取网页信息，需要用到urllib2，调用urllib2.urlopen(url)，可以获得response 反馈信息，再用response.read()即可获得页面的源码。

最简单的抓包代码：

import urllib2

response = urllib2.urlopen('http://www.baidu.com/')

html = response.read()

print html

下面来说一说urllib2中的两个重要概念：Openers和Handlers。

1.Openers：

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。

正常情况下，我们使用默认opener：通过urlopen。

但你能够创建个性的openers。

2.Handles：

Openers使用处理器handlers，所有的“繁重”工作由handlers处理。

每个handlers知道如何通过特定协议打开URLs，或者如何处理URL打开时的各个方面。

在你使用代理上网或其他的情况就需要自己创建一个 opener，可以实例化一个OpenerDirector，

然后调用.add_handler(some_handler_instance)。

同样，可以使用build_opener，这是一个更加方便的函数，用来创建opener对象，他只需要一次函数调用。
build_opener默认添加几个处理器，但提供快捷的方法来添加或更新默认处理器。

其他的处理器handlers你或许会希望处理代理，验证，和其他常用但有点特殊的情况。

install_opener 用来创建（全局）默认opener。这个表示调用urlopen将使用你安装的opener。

Opener对象有一个open方法。

该方法可以像urlopen函数那样直接用来获取urls：通常不必调用install_opener，除了为了方便。

import urllib2  

proxy_handler = urllib2.ProxyHandler({'http':'http://10.19.110.32:8080/'})

opener = urllib2.build_opener(proxy_handler)

urllib2.install_opener(opener) 

response = urllib2.urlopen('http://www.baidu.com/')

html = response.read()

print html

import urllib2  

proxy_handler = urllib2.ProxyHandler({'http':'http://10.19.110.32:8080/'})

opener = urllib2.build_opener(proxy_handler)

response = opener.open('http://www.baidu.com/')

html = response.read()

print html

urllib2中自定义opener的更多相关文章

爬虫urllib2中Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,urlopen是一个特殊的opener(也就是模块已经构建好的). 但是基本的url ...
Python标准库之urllib，urllib2自定义Opener
urllib2.urlopen()函数不支持验证.cookie或者其它HTTP高级功能.要支持这些功能,必须使用build_opener()函数创建自定义Opener对象. 1. build_open ...
urllib2 Handler处理器和自定义opener（六）
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
python爬虫(六)_urllib2：handle处理器和自定义opener
本文将介绍handler处理器和自定义opener,更多内容请参考:python学习指南 opener和handleer 我们之前一直使用的是urllib2.urlopen(url)这种形式来打开网页 ...
2.Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
爬虫之Handler处理器和自定义Opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
ProxyHandler处理器__代理设置__自定义opener
ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正 ...
7-python自定义opener
Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构 ...
爬虫——Handler处理器和自定义Opener
我们之前一直都在使用的urlopen,这是一个特殊的opener(也就是模块帮我们构建好的). 但是基本的urlopen()方法不支持代理.cookie等其他的HTTP/HTTPS高级功能.所以要支持 ...

随机推荐

Java Swing中Substance常用皮肤
AutumnSkin; BusinessSkin; BusinessBlackSteelSkin; BusinessBlueSteelSkin; ChallengerDeepSkin; CremeSk ...
servlet应用具体实例
web,xml应用文件 1.<filter>参数 <filter> <filter-name>encodingFilter</filter-name> ...
如何过滤 adb logcat 输出
对原作者表示感谢,转自博客:http://www.otechu.me/zh/2011/12/filtering-adb-logcat-output/ 本文介绍如何在 shell 命令行中过滤 adb ...
poj 1191 棋盘分割(dp + 记忆化搜索)
题目:http://poj.org/problem?id=1191 黑书116页的例题将方差公式化简之后就是每一块和的平方相加/n , 减去平均值的平方. 可以看出来方差只与每一块的和的平方 ...
POJ 3687 Labeling Balls【拓扑排序优先队列】
题意:给出n个人,m个轻重关系,求满足给出的轻重关系的并且满足编号小的尽量在前面的序列因为输入的是a比b重,但是我们要找的是更轻的,所以需要逆向建图逆向建图参看的这一篇http://blog.cs ...
[FIX BUG]获取theme中自定义textColor时报的错误
我在Fragment中inflate它都可以,可是一旦使用ListView来inflate就会报错,说找不到我自定义的attr!研究了半天发现是我的inflate的context有问题: view = ...
hisi平台mii网络模式和rmii网络模式的uboot制作
MII网络uboot编译说明一:编译生成默认的uboot1. 进入到uboot目录a. cd /home/satan/Hi3518_SDK_V1.0.7.0/osdrv/uboot2. 新建临时文件 ...
[Everyday Mathematics]20150122
设 $f:[0,1]\to [0,1]$. (1). 若 $f$ 连续, 试证: $\exists\ \xi\in [0,1],\st f(\xi)=\xi$. (2). 若 $f$ 单调递增, 试证 ...
Hadoop Configuration
Configuration的主要是加载配置文件,并储存在properties中. 细节内容不重复了,主要参考Hadoop技术内幕,Hadoop源代码,以及: http://blog.csdn.net/ ...
Android FragmentActivity+viewpager的使用
使用场景,打算设计一个“底部菜单栏+其余可滑动的页面”的简单的功能. package com.lanyuweng.mibaby; import android.content.Intent; impo ...

urllib2中自定义opener

urllib2中自定义opener的更多相关文章

随机推荐

热门专题