Python的urllib和urllib2模块

Python的urllib和urllib2模块都做与请求URL相关的操作，但他们提供不同的功能。他们两个最显着的差异如下：

urllib2可以接受一个Request对象，并以此可以来设置一个URL的headers，但是urllib只接收一个URL。这意味着，你不能伪装你的用户代理字符串等。
urllib模块可以提供进行urlencode的方法，该方法用于GET查询字符串的生成，urllib2的不具有这样的功能。这就是urllib与urllib2经常在一起使用的原因。

常用的方法

urllib2.urlopen(url[, data][, timeout])
urlopen方法是urllib2模块最常用也最简单的方法，它打开URL网址，url参数可以是一个字符串url或者是一个Request对象。URL没什么可说的，Request对象和data在request类中说明，定义都是一样的。

对于可选的参数timeout，阻塞操作以秒为单位

import urllib2

response = urllib2.urlopen('http://python.org/')

html = response.read()

urlopen方法也可通过建立了一个Request对象来明确指明想要获取的url。调用urlopen函数对请求的url返回一个response对象。这个response类似于一个file对象，所以用.read()函数可以操作这个response对象，关于urlopen函数的返回值的使用，我们下面再详细说。

import urllib2

req = urllib2.Request('http://python.org/')

response = urllib2.urlopen(req,data='abc')

the_page = response.read()

urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

Request类是一个抽象的URL请求。
这里用到了urllib2.Request类，对于上例，我们只通过了URL实例化了Request类的对象，其实Request类还有其他的参数。
data是作为参数请求，如果data不等于None，则该请求为POST，否则为GET

import urllib

import urllib2

url = 'http://www.baidu.com'

values = {'name' : 'qiangzi',

          'age' : 27,

          'id' :1}

data = urllib.urlencode(values)

req = urllib2.Request(url, data)

response = urllib2.urlopen(req)

the_page = response.read()

headers——是字典类型，头字典可以作为参数在request时直接传入，也可以把每个键和值作为参数调用add_header()方法来添加。作为辨别浏览器身份的User-Agent header是经常被用来恶搞和伪装的，因为一些HTTP服务只允许某些请求来自常见的浏览器而不是脚本，或是针对不同的浏览器返回不同的版本。例如，Mozilla Firefox浏览器被识别为“Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11”。默认情况下，urlib2把自己识别为Python-urllib/x.y（这里的xy是python发行版的主要或次要的版本号，如在Python 2.6中，urllib2的默认用户代理字符串是“Python-urllib/2.6。下面的例子和上面的区别就是在请求时加了一个headers，模仿IE浏览器提交请求。

import urllib

import urllib2

url = 'http://www.baidu.com'

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

values = {'name' : 'qiangzi',

          'age' : 27,

          'id' :1}

headers = { 'User-Agent' : user_agent }

data = urllib.urlencode(values)

req = urllib2.Request(url, data, headers)

response = urllib2.urlopen(req)

the_page = response.read()

添加header也可以采用另一种方案
req.add_header('Referer', 'http://www.python.org/')
3）其他的一些常用方法
geturl() — 返回检索的URL资源，这个是返回的真正url，通常是用来鉴定是否重定向的，如下面代码4行url如果等于“http://www.python.org/ ”说明没有被重定向。如果被重定向了，有可能这个被重定向的值是需要用的，比如下载的时候如果我们要获取那个最终的下载地址
getcode() — 返回响应的HTTP状态代码，运行下面代码可以得到code=200，具体各个code代表的意思请参见文后附录。

4）HTTPCookieProcessor
很多网站的资源需要用户登录之后才能获取。
我们一旦登录后再访问其他被保护的资源的时候，就不再需要再次输入账号、密码。那么网站是怎么办到的呢？
一般来说，用户在登录之后，服务器端会为该用户创建一个Session。Session相当于该用户的档案。该档案就代表着该用户。
那么某一次访问请求是属于该用户呢？登录的时候服务器要求浏览器储存了一个Session ID的Cookie值。每一个访问都带上了该Cookie。服务器将Cookie中的Session ID与服务器中的Session ID比对就知道该请求来自哪个用户了。

opener
我们在调用urllib2.urlopen(url)的时候，其实urllib2在open函数内部创建了一个默认的opener对象。然后调用opener.open()函数。
但是默认的opener并不支持cookie。
那么我们先新建一个支持cookie的opener。urllib2中供我们使用的是HTTPCookieProcessor。

创建HTTPCookieProcessor需要一个存放cookie的容器。
Python提供的存放cookie的容器位于cookielib，有以下几个。
CookieJar -> FileCookieJar -> MozillaCookieJar / LWPCookieJar

import cookielib

import urllib2

cookies = cookielib.CookieJar()

cookieHandler = urllib2.HTTPCookieProcessor(cookiejar=cookies)

opener = urllib2.build_opener(cookieHandler)

request = urllib2.Request("http://www.baidu.com")

urllib2.urlopen(request)

for cookie in cookies:

    print cookie.name, cookie.value

上面的代码显示，urllib2的确帮我们把cookie从response中提取出来。但是如何保存在一个文件中呢？

urllib2.install_opener(opener)
会设置 urllib2 的全局 opener

最后来讲解下这个json包
json.dumps 将 Python 对象编码成 JSON 字符串
json.loads 将已编码的 JSON 字符串解码为 Python 对象

原作者：我是强子
链接：http://www.jianshu.com/p/1416ccc99979
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Python的urllib和urllib2模块的更多相关文章

Python urllib和urllib2模块学习(二)
一.urllib其它函数前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍.当然 urllib 还有一些其它很有用的辅助方法,比如对 ur ...
Python urllib和urllib2模块学习(一）
(参考资料:现代魔法学院 http://www.nowamagic.net/academy/detail/1302803) Python标准库中有许多实用的工具类,但是在具体使用时,标准库文档上对使用 ...
[转]Python中urllib与urllib2的区别与联系
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
Python urllib和urllib2模块学习(三)
build_opener()详解: 1.urllib2.urlopen()函数不支持验证.cookie或者其它HTTP高级功能,要支持这些功能,必须使用build_opener()函数创建自定这句话的 ...
python中urllib和urllib2的简单用法
import urllib #引入urllib模块,这里用urllib2也可以 fpage = urllib.urlopen( url ) #打开网页:例如url=‘http://www.xxx.co ...
urllib 和urllib2 模块使用简例
一.最简单的使用 import urllib,urllib2 response = urllib2.urlopen("https://www.baidu.com") print r ...
洗礼灵魂，修炼python（54）--爬虫篇—urllib2模块
urllib2 1.简介 urllib2模块定义的函数和类用来获取URL(主要是HTTP的),他提供一些复杂的接口用于处理: 基本认证,重定向,Cookies等.urllib2和urllib差不多,不 ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
urllib与urllib2的学习总结
先啰嗦一句,我使用的版本是python2.7,没有使用3.X的原因是我觉得2.7的扩展比较多,且较之前的版本变化不大,使用顺手.3.X简直就是革命性的变化,用的蹩手.3.x的版本urllib与urll ...

随机推荐

我也说说Emacs吧(1) - Emacs和Vi我们都学
好友幻神的<Emacs之魂>正在火热连载中,群里人起哄要给他捧捧场. 作为一个学习Emacs屡败屡战的用户,这个场还是值得捧一下的.至少我是买了HHKB键盘的... 从我的键盘说起 - 有 ...
azure 架构选择
在azure中主要有以下3种不同的托管环境. 平台即服务(PaaS)提供了可管理的托管环境,可以直接部署应用而不需要关心背后的虚拟机和网络资源.例如,当需要托管一个应用时,只需要指定实例的个数,azu ...
Webdynpro ABAP 简单剖析
众所周知,WEBDYNPRO是今天来SAP主推的一个面向WEB的MVC编程框架,接触过J2EE的朋友都不会对MVC这种设计模式陌生,WEBDYNPRO ABAP的基本设计思路和很多著名的面向互联网的M ...
win8 ie10 debug flex
win8 ie10 使用flash debug方法: 删除c:\WINDOWS\system32\Macromed\Flash.c:\WINDOWS\SysWOW64\Macromed\Flash里面 ...
js 字符串和数组注意点
var a="foo"; var b=[ "f","o","o"]; a[1]="o"; b[1]= ...
Filter学习（一）
一.Filter简介 Filter:可以对web服务器管理的所有web资源(如Jsp, Servlet, 静态图片文件或静态 html 文件等)进行拦截,从而实现一些特殊的功能.例如实现URL级别的权 ...
BZOJ2824 AHOI2012 铁盘整理【IDA*】
BZOJ2824 AHOI2012 铁盘整理 Description 在训练中,一些臂力训练器材是少不了的,小龙在练习的时候发现举重器械上的铁盘放置的非常混乱,并没有按照从轻到重的顺序摆放,这样非常不 ...
altium布局布线原则
布局应该先放位置确定不能随意变动的,之后是核心器件,然后是周围器件,如果周围器件过多,为防止布线时交叉过多,可以一部分小模块放到底层. 布线时优先顺序为先电源线和网络中使用频率高的线,之后是信号线.走 ...
phoenix elixir 框架简单试用
备注: 官方提供的脚手架工具,我们可以直接使用,生成代码,同时需要nodejs 环境配置(比较简单,参考相关资料即可) 1. 安装脚手架 mix archive.install https:/ ...
maven-assembly-plugin 打包简单案例
简单项目 1. maven netty lomback 包含项目依赖 <dependencies> <dependency> <groupId>io.ne ...

Python的urllib和urllib2模块

Python的urllib和urllib2模块的更多相关文章

随机推荐

热门专题