python urllib

在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展

1. urllib 在urllib.request module中定义下面的一些方法

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

打开一个url地址，这个url地址可以是一个字符串或者一个request对象

I 请求打开一个字符串地址

 from urllib.request import urlopen

 html = urlopen('https://www.baidu.com/')

 print(html.read())

II 请求打开一个request对象

 from urllib import request

 req = request.Request('https://www.baidu.com/')

 html = request.urlopen(req)

 print(html.read())

如果需要向服务端发送特定的附件数据信息,数据必须是一个字节对象指定额外的数据发送到服务器，当数据参数被提供的时候HTTP请求将会执行Post请求而不是Get请求

数据应该是一个缓冲的标准应用程序以 x-www-form-urldecoded的格式。urllib.parse.urlencode()函数接受一个映射或序列集合，并返回一个ASCII文本字符串的格式。

III 返回值，urlopen这个函数的返回值包含上下文环境，使用with语句来进行操作。这个对象包含了下面的几个常用方法

1. geturl() 返回当前资源的url地址，也就是请求的url地址

2. info() 返回当前资源的meta-information 包括：headers等等

3. getcode() 返回请求的状态 200为成功 404为未找到

对于http和https的url请求，这个方法返回http.client.HTTPResponse类型的对象

对于ftp file 和data urls这个请求被URLOpener和FancyURLopener两个类型处理，并且返回urllib.response.addinfourl 对象。

2. urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)

将网站上的内容下载到本地的方法，如果这个url为本地地址，如果本地文件不支持就不会发生下载

函数的返回值为(filename,headers)组成的元组，filename为本地文件，headers和urlopen方法返回的info()方法返回一样

第二个参数filename，如果给定本地地址，会将临时文件保存到给定的地址中

第三个参数为一个钩子对调函数，一旦和请求网络建立连接每次传入都会讲传输的信息通过这个函数返回

python urllib的更多相关文章

python urllib模块的urlopen()的使用方法及实例
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 一.urllib模块urlopen()函数: urlopen(url, data=N ...
Python:urllib和urllib2的区别(转)
原文链接:http://www.cnblogs.com/yuxc/ 作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版.今天看到老外写的一篇<Python: ...
Python urllib和urllib2模块学习(一）
(参考资料:现代魔法学院 http://www.nowamagic.net/academy/detail/1302803) Python标准库中有许多实用的工具类,但是在具体使用时,标准库文档上对使用 ...
python urllib和urllib2 区别
python有一个基础的库叫httplib.httplib实现了HTTP和HTTPS的客户端协议,一般不直接使用,在python更高层的封装模块中(urllib,urllib2)使用了它的http实现 ...
Python urllib urlretrieve函数解析
Python urllib urlretrieve函数解析利用urllib.request.urlretrieve函数下载文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 Ur ...
python+urllib+beautifulSoup实现一个简单的爬虫
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能 ...
HTTP Header Injection in Python urllib
catalogue . Overview . The urllib Bug . Attack Scenarios . 其他场景 . 防护/缓解手段 1. Overview Python's built ...
python urllib urllib2
区别 1) urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL.这意味着,用urllib时不可以伪装User Agent字符串等. 2) u ...
python urllib基础学习
# -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' #使用python创建一个简单的WEB客户端 import urll ...
python urllib模块
1.urllib.urlopen(url[,data[,proxies]]) urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像 ...

随机推荐

windows安装zookeeper-单机模式
zookeeper下载地址:http://zookeeper.apache.org/releases.html#download 本次使用的是3.4.9版本前提:请安装JDK 安装: 创建安装目 ...
hdu 4329
problem:http://acm.hdu.edu.cn/showproblem.php?pid=4329 题意:模拟 a. p(r)= R'/i rel(r)=(1||0) R ...
HTTP Header 详解
HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议.HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应.就整个网络资源传 ...
CSS3中的px,em,rem,vh,vw辨析
1.px:像素,精确显示 2.em:继承父类字体的大小,相当于"倍",如:浏览器默认字体大小为16px=1em,始终按照div继承来的字体大小显示,进场用于移动端 em换算工具:h ...
点击页面判断是否安装app并打开，否则跳转app store的方法
常常有这样的场景,咱们开发出来的APP需要进行推广,比如在页面顶部来一张大Banner图片,亦或一张二维码.但往往我们都是直接给推广图片加了一个下载链接(App Store中的).所以咱们来模拟一下用 ...
Redis 3.0 Cluster集群配置
Redis 3.0 Cluster集群配置安装环境依赖安装gcc:yum install gcc 安装zlib:yum install zib 安装ruby:yum install ruby 安装 ...
DateUtil（SimpleDateFormat）
import java.util.Calendar; import java.util.Date; import java.text.SimpleDateFormat; public class Da ...
Alipay秘钥问题
有三种秘钥一个是应用公钥一个是支付宝公钥 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px Monaco } span.s1 { text-d ...
XP机器上WCF采用X509证书加密时IIS读取证书的授权
XP机器上WCF采用X509证书加密时IIS读取证书的授权 XP下的授权命令为:winhttpcertcfg -g -c LOCAL_MACHINE\My -s 证书名称 -a "ASPNE ...
"传成老树白茶"献礼母亲节邀市民品茗感受茶文化
5月8日下午,传成老树白茶巡回中国公益品鉴会第七十站,走进福州马尾区东方名城传成老树白茶文化馆. 本次品鉴会活动以“感恩母亲节”为主题,以马尾船政文化为背景,邀福州市民一起品鉴白茶,感受中国茶文化. ...

python urllib

python urllib的更多相关文章

随机推荐

热门专题