python2核心类库:urllib、urllib2的区别和使用
urllib/urllib2都是接受URL请求的相关模块
区别:
1.urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,你不可以伪装你的User Agent字符串等。
2.urllib提供urlencode方法用来产生GET的查询字符串,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。
目前的大部分http请求都是通过urllib2来访问的
urllib2简单用法
最简单的形式:
import urllib2  
response=urllib2.urlopen('http://www.douban.com')  
html=response.read()  
实际步骤:
1、urllib2.Request()的功能是构造一个请求信息,返回的req就是一个构造好的请求
2、urllib2.urlopen()的功能是发送刚刚构造好的请求req,并返回一个文件类的对象response,包括了所有的返回信息。
3、通过response.read()可以读取到response里面的html,通过response.info()可以读到一些额外的信息。
如下:
#!/usr/bin/env python  
import urllib2  
req = urllib2.Request("http://www.douban.com")  
response = urllib2.urlopen(req)  
html = response.read()  
print html
 添加header头信息
有时会碰到服务器拒绝你的访问。这是为什么呢?问题出在请求中的头信息(header)。 有的服务端有洁癖,不喜欢程序来触摸它。这个时候需要将你的程序伪装成浏览器来发出请求。请求的方式就包含在header中。
常见的情形:
import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
# 将user_agent写入头信息
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'name' : 'who','password':'123456'}  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(req)  
the_page = response.read()
或者:
import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
values = {'name' : 'who','password':'123456'}  
data = urllib.urlencode(values)  
req = urllib2.Request(url, data)  
# 添加user_agent头信息
req.add_header('User-Agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
response = urllib2.urlopen(req)
the_page = response.read()
GET方法
例如百度:
百度是通过http://www.baidu.com/s?wd=XXX 来进行查询的,这样我们需要将{‘wd’:’xxx’}这个字典进行urlencode
代码:
#coding:utf-8  
import urllib   
import urllib2    
url = 'http://www.baidu.com/s'   
values = {'wd':'D_in'}     
data = urllib.urlencode(values)  
print data   
url2 = url+'?'+data  
response = urllib2.urlopen(url2)    
the_page = response.read()   
print the_page
POST方法
代码:
import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
# 将user_agent写入头信息
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
# post数据
values = {'name' : 'who','password':'123456'}  
headers = { 'User-Agent' : user_agent }  
# 对post数据进行url编码 
data = urllib.urlencode(values) 
req = urllib2.Request(url, data, headers)  
the_page = urllib2.urlopen(req).read()
urllib2带cookie的使用
代码:
#coding:utf-8  
import urllib2,urllib
import cookielib  
url = r'http://www.someserver.com/ajaxLogin'  
#创建一个cj的cookie的容器  
cj = cookielib.CookieJar()  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))  
#将要POST出去的数据进行编码  
data = urllib.urlencode({"email":email,"password":pass})  
r = opener.open(url,data)  
print cj
python3中urllib库和urilib2库合并成了urllib库。
导入模块:
import urllib
import urllib2
变成了
import urllib.request
urllib2中的方法使用:
urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request() 
urllib2.URLError 变成了urllib.error.URLError
而当你想使用urllib 带数据的post请求时,
在python2中
urllib.urlencode(data)
而在python3中变成了
urllib.parse.urlencode(data)
Ps:
1.有的时候会出现返回结果乱码的情况,一般是网页经过压缩导致的。
这个时候要判断该网页是否经过压缩,如果经过压缩则先进行解压操作。
import gzip
import StringIO
r = urllib2.urlopen(req).read()
# 判断该网页是否经过压缩,如果经过压缩则先进行解压操作
r = StringIO.StringIO(r)
r = gzip.GzipFile(fileobj=r).read()
done!
python2核心类库:urllib、urllib2的区别和使用的更多相关文章
- python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
		
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别 若只使用python3.X, 下面可以不看了, 记住有个ur ...
 - 详解:Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
		
在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.urllib2可以接受一个Request类的实例来设置URL请求的hea ...
 - python的httplib、urllib和urllib2的区别及用
		
慢慢的把它们总结一下,总结就是最好的学习方法 宗述 首先来看一下他们的区别 urllib和urllib2 urllib 和urllib2都是接受URL请求的相关模块,但是urllib2可以接受一个Re ...
 - Python:urllib和urllib2的区别(转)
		
原文链接:http://www.cnblogs.com/yuxc/ 作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版.今天看到老外写的一篇<Python: ...
 - python中 urllib, urllib2, httplib, httplib2 几个库的区别
		
转载 摘要: 只用 python3, 只用 urllib 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urll ...
 - 4 urllib和urllib2的区别
		
4 urllib和urllib2的区别 这个面试官确实问过,当时答的urllib2可以Post而urllib不可以. urllib提供urlencode方法用来GET查询字符串的产生,而urllib2 ...
 - Python2中的urllib、urllib2和 Python3中的urllib、requests
		
目录 Python2.x中 urllib和urllib2 常用方法和类 Python3.x中 urllib requests Python2.x中 urllib和urllib2 urllib 和 ur ...
 - [转]Python中urllib与urllib2的区别与联系
		
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
 - Python2和Python3的一些语法区别
		
Python2和Python3的一些语法区别 python 1.print 在版本2的使用方法是: print 'this is version 2 也可以是 print('this is versi ...
 
随机推荐
- delete CDU
			
function DeletePDU(){ global $person; $this->MakeSafe(); // Do not attempt anything else if the l ...
 - 移动端开发rem单位
			
1.用js计算 <script> (function (doc, win) { var docEl = doc.documentElement, resizeEvt = 'orientat ...
 - CentOS6.x安装RabbitMQ
			
一.安装依赖文件 yum install build-essential openssl openssl-devel unixODBC unixODBC-devel make gcc gcc-c++ ...
 - JavaScript循环语句-6---for语句,while语句的应用逻辑
			
JavaScript循环语句 学习目标 1.掌握for语句的语法结构 2.掌握for语句的应用逻辑 for语句 语法: For(语句1:语句2:语句3){ 被执行的代码块: } 语句1:在循环(代码块 ...
 - centos7 安装mysql--python模块出现EnvironmentError: mysql_config not found和error: command 'gcc' failed with exit status 1
			
要想使python可以操作mysql 就需要MySQL-python驱动,它是python 操作mysql必不可少的模块. 下载地址:https://pypi.python.org/pypi/MySQ ...
 - [LeetCode&Python] Problem 661. Image Smoother
			
Given a 2D integer matrix M representing the gray scale of an image, you need to design a smoother t ...
 - Sublime Text 3(中文)在Windows下的配置、安装、运行
			
Sublime Text 3(中文)下载.安装.运行! 本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) 具体 ...
 - github如何删除新建仓库(致新手)
			
github作为开发人员的必备用具.那么,作为一个新手如何删除github中建立的仓库呢? 1.以删除My test为例
 - SQLI DUMB SERIES-5
			
less5 (1)输入单引号,回显错误,说明存在注入点.输入的Id被一对单引号所包围,可以闭合单引号 (2)输入正常时:?id=1 说明没有显示位,因此不能使用联合查询了:可以使用报错注入,有两种方式 ...
 - 嵌套for