python网络编程（六）---web客户端访问

1.获取web页面

urllib2 支持任何协议的工作---不仅仅是http，还包括FTP,Gopher。

 import urllib2

 req=urllib2.Request('http://www.baidu.com')  #第一件事，建立urllib2.Request对象，注意http别掉了

 fd =urllib2.urlopen(req)

 while 1:

     data =fd.read(50000)   #限制读取的字符

     if not len(data):

         break

     print data

2.urllib,urllib2,httplib的介绍

urllib模块

1）urllib.urlopen(url[, data[, proxies]]) :
本函数创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址。

read(), readline(), readlines(), fileno(), close()：这些方法的使用方式与文件对象完全一样;
info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息；
getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到；
geturl()：返回请求的url。

 #! /usr/bin/env python

 #coding=utf-8

 import urllib

 content=urllib.urlopen("http://www.baidu.com")

 print "http header:",content.info()

 print "http status:",content.getcode()

 print "url:",content.geturl()

 print "content:"

 for line in content.readlines():

     print line

2）urllib.urlretrieve(url[, filename[, reporthook[, data]]])：

urlretrieve方法直接将远程数据下载到本地。

参数url是要下载的url地址。

参数filename指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；

参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调（即每下载一块就调用一次回调函数）。我们可以利用这个回调函数来显示当前的下载进度，也可以用于限速，下面的例子会展示。

参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)，filename表示保存到本地的路径， header表示服务器的响应头。

 """下载文件，并显示下载进度"""

 import urllib

 def DownCall(count,size,total_filesize):

     """count为已下载数据块个数，size为数据块的大小，total_filesize为文件总大小"""

     per=100.0*count*size/total_filesize

     if per>100:

         per=100

     print "Already download %d KB(%.2f"  %(count*size/1024,per)+"%)"

 url="http://rodrigob.github.io/documents/2012_cvpr_pedestrian_detection_at_100_frames_per_second.pdf"

 localfilepath=r"E:\pythonCode\download.pdf"

 urllib.urlretrieve(url,localfilepath,DownCall)

urllib中还提供了一些辅助方法，用于对url进行编码、解码。url中是不能出现一些特殊的符号的，有些符号有特殊的用途。我们知道以get方式提交数据的时候，会在url中添加key=value这样的字符串，所以在value中是不允许有'='，因此要对其进行编码；与此同时服务器接收到这些参数的时候，要进行解码，还原成原始的数据。这个时候，这些辅助方法会很有用：

urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符;
urllib.unquote(string) ：对字符串进行解码；
urllib.quote_plus(string[, safe]) ：与urllib.quote类似，但这个方法用'+'来替换' '，而quote用'%20'来代替' '
urllib.unquote_plus(string) ：对字符串进行解码；
urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"
urllib.pathname2url(path)：将本地路径转换成url路径；
urllib.url2pathname(path)：将url路径转换成本地路径；

urllib2模块

使用Python访问网页主要有三种方式： urllib, urllib2, httplib
urllib比较简单，功能相对也比较弱，httplib简单强大，但好像不支持session
（1）最简单的页面访问
res=urllib2.urlopen(url)
print res.read()
（2）加上要get或post的数据
data={"name":"hank", "passwd":"hjz"}
urllib2.urlopen(url, urllib.urlencode(data))
（3）加上http头
header={"User-Agent": "Mozilla-Firefox5.0"}
urllib2.urlopen(url, urllib.urlencode(data), header)

使用opener和handler
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
（4）加上session
cj = cookielib.CookieJar()
cjhandler=urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cjhandler)
urllib2.install_opener(opener)
（5）加上Basic认证
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
top_level_url = "http://www.163.com/"
password_mgr.add_password(None, top_level_url, username, password)
handler = urllib2.HTTPBasicAuthHandler(password_mgr)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
（6）使用代理
proxy_support = urllib2.ProxyHandler({"http":"http://1.2.3.4:3128/"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
（7）设置超时
socket.setdefaulttimeout(5)

Httplib模块

httplib 是 python中http 协议的客户端实现，可以使用该模块来与 HTTP 服务器进行交互。httplib的内容不是很多，也比较简单。以下是一个非常简单的例子，使用httplib获取163首页的html：

 import httplib

 conn = httplib.HTTPConnection("www.qq.com")

 conn.request('get', '/')

 print conn.getresponse().read()

 conn.close()

下面详细介绍httplib提供的常用类型和方法。
httplib.HTTPConnection ( host [ , port [ , strict [ , timeout ]]] )
　　HTTPConnection类的构造函数，表示一次与服务器之间的交互，即请求/响应。参数host表示服务器主机，如：www.csdn.net；port为端口号，默认值为80；参数strict的默认值为false，表示在无法解析服务器返回的状态行时( status line) （比较典型的状态行如： HTTP/1.0 200 OK ），是否抛BadStatusLine 异常；可选参数timeout 表示超时时间。
　　HTTPConnection提供的方法：
HTTPConnection.request ( method , url [ , body [ , headers ]] )
　　调用request 方法会向服务器发送一次请求，method 表示请求的方法，常用有方法有get 和post ；url 表示请求的资源的url ；body 表示提交到服务器的数据，必须是字符串（如果method 是"post" ，则可以把body 理解为html 表单中的数据）；headers 表示请求的http 头。
HTTPConnection.getresponse ()
　　获取Http 响应。返回的对象是HTTPResponse 的实例。
HTTPConnection.connect ()
　　连接到Http 服务器。
HTTPConnection.close ()
　　关闭与服务器的连接。

随机附赠一张美图：嘿嘿

示例可以参考：http://www.cnblogs.com/xiaowuyi/archive/2012/05/21/2511428.html

python网络编程（六）---web客户端访问的更多相关文章

python网络编程之验证客户端链接的合法性
六.socket的更多方法介绍服务端套接字函数s.bind() 绑定(主机,端口号)到套接字s.listen() 开始TCP监听s.accept() b被动接收TCP客户的连接,(阻塞式)等待连接的 ...
python 网络编程 TCP/IP socket UDP
TCP/IP简介虽然大家现在对互联网很熟悉,但是计算机网络的出现比互联网要早很多. 计算机为了联网,就必须规定通信协议,早期的计算机网络,都是由各厂商自己规定一套协议,IBM.Apple和Micro ...
图解Python网络编程
返回目录本篇索引 (1)基本原理 (2)socket模块 (3)select模块 (4)asyncore模块 (5)asynchat模块 (6)socketserver模块 (1)基本原理本篇指的 ...
Python网络编程基础|百度网盘免费下载|零基础入门学习资料
百度网盘免费下载:Python网络编程基础|零基础学习资料提取码:k7a1 目录: 第1部分底层网络第1章客户/服务器网络介绍第2章网络客户端第3章网络服务器第4章域名系统第5章 ...
Python网络编程基础 PDF 完整超清版|网盘链接内附提取码下载|
点此获取下载地址提取码:y9u5 Python网络编程最好新手入门书籍!175个详细案例,事实胜于雄辩,Sockets.DNS.Web Service.FTP.Email.SMTP.POP.IMAP. ...
Python 网络编程（一）
Python 网络编程 socket通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求. ...
物联网网络编程、Web编程综述
本文是基于嵌入式物联网研发工程师的视觉对网络编程和web编程进行阐述.对于专注J2EE后端服务开发的童鞋们来说,这篇文章可能稍显简单.但是网络编程和web编程对于绝大部分嵌入式物联网工程师来说是一块真 ...
Python学习（22）python网络编程
Python 网络编程 Python 提供了两个级别访问的网络服务.: 低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统Socket接口的 ...
Day07 - Python 网络编程 Socket
1. Python 网络编程 Python 提供了两个级别访问网络服务: 低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统Socket接口 ...
python网络编程-01
python网络编程 1.socket模块介绍 ①在网络编程中的一个基本组件就是套接字(socket),socket是两个程序之间的“信息通道”. ②套接字包括两个部分:服务器套接字.客户机套接字 ③ ...

随机推荐

discuz微社区始终显示“正在加载中”
使用DZ的tools工具一键关闭所有插件后,帮我排查了js冲突的问题,但是也带来了一系列后患: 云平台连“QQ互联”也失效了,之前云平台的各项业务已经不正常,无法开启关闭,提示“远程接口无法调用... ...
分析函数调用关系图(call graph)的几种方法
绘制函数调用关系图对理解大型程序大有帮助.我想大家都有过一边读源码(并在头脑中维护一个调用栈),一边在纸上画函数调用关系,然后整理成图的经历.如果运气好一点,借助调试器的单步跟踪功能和call sta ...
javaweb学习总结(四十四)——监听器(Listener)学习
一.监听器介绍 1.1.监听器的概念
CentOS系统内核升级
yum -y update 升级所有包,改变软件设置和系统设置,系统版本内核都升级 yum -y upgrade 升级所有包,不改变软件设置和系统设置,系统版本升级,内核不改变
列出man手册所有函数的方法
locate /man7/|sed -r 's#.*/([^/]+).7.gz$#\1#' locate /man7/ | xargs basename -a -s '.7.gz' apropos - ...
CodeIgniter类库之Benchmarking Class ,计算代码的执行时间
CodeIgniter中有个Benchmarking类库,它是被系统自动被加载的,不需要手工加载.Benchmarking类库能够计算出任意两个被标记点之间的代码执行时间.通过这个数值,可以评估程序员 ...
OAF与Windows 7版本不兼容黑屏卡顿问题
OAF版本比较原始,在Window7中无法应用配色方案,导致黑屏卡顿问题.(在启动OC4J后,Window7的配色方案还是会还原至原始状态) 修改$JDEV_HOME/jdev/bin/jdev.co ...
fiddler代理
对于前段开发人员,fiddler 是一个必不可少的调试神器.下载地址:http://www.telerik.com/download/fiddler. 有同学也许会碰到,chrome 下 fiddle ...
poj3216
这是一道描述非常不清楚的题目首先解释一下,题目中的ti是任务开始时间不是结束时间, 然后维修人员可以理解为可以再任意时间从公司出发: 好,首先不难想到用floyd预处理一下: 然后我们把每个任务看成 ...
存储过程分页【NOT IN】和【>】效率大PK 千万级别数据测试结果
use TTgoif exists (select * from sysobjects where name='Tonge')drop table Tongecreate table Tonge( I ...

python网络编程（六）---web客户端访问

python网络编程（六）---web客户端访问的更多相关文章

随机推荐

热门专题