Python网络请求urllib和urllib3详解

urllib是Python中请求url连接的官方标准库，在Python2中主要为urllib和urllib2，在Python3中整合成了urllib。

而urllib3则是增加了连接池等功能，两者互相都有补充的部分。

urllib

urllib作为Python的标准库，基本上涵盖了基础的网络请求功能。

urllib.request

urllib中，request这个模块主要负责构造和发起网络请求，并在其中加入Headers、Proxy等。

发起GET请求

主要使用urlopen()方法来发起请求：

from urllib import request

resp = request.urlopen('http://www.baidu.com')

print(resp.read().decode())

在urlopen()方法中传入字符串格式的url地址，则此方法会访问目标网址，然后返回访问的结果。

访问的结果会是一个http.client.HTTPResponse对象，使用此对象的read()方法，则可以获取访问网页获得的数据。但是要注意的是，获得的数据会是bytes的二进制格式，所以需要decode()一下，转换成字符串格式。

发起POST请求

urlopen()默认的访问方式是GET，当在urlopen()方法中传入data参数时，则会发起POST请求。

注意：传递的data数据需要为bytes格式。

设置timeout参数还可以设置超时时间，如果请求时间超出，那么就会抛出异常。

from urllib import request

resp = request.urlopen('http://httpbin.org', data=b'word=hello', timeout=10)

print(resp.read().decode())

添加Headers

通过urllib发起的请求会有默认的一个Headers："User-Agent":"Python-urllib/3.6"，指明请求是由urllib发送的。

所以遇到一些验证User-Agent的网站时，我们需要自定义Headers，而这需要借助于urllib.request中的Request对象。

from urllib import request

url = 'http://httpbin.org/get'

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

# 需要使用url和headers生成一个Request对象，然后将其传入urlopen方法中

req = request.Request(url, headers=headers)

resp = request.urlopen(req)

print(resp.read().decode())

Request对象

如上所示，urlopen()方法中不止可以传入字符串格式的url，也可以传入一个Request对象来扩展功能，Request对象如下所示。

class urllib.request.Request(url, data=None, headers={},

                           origin_req_host=None,

                           unverifiable=False, method=None)

构造Request对象必须传入url参数，data数据和headers都是可选的。

最后，Request方法可以使用method参数来自由选择请求的方法，如PUT，DELETE等等，默认为GET。

添加Cookie

为了在请求时能带上Cookie信息，我们需要重新构造一个opener。

使用request.build_opener方法来进行构造opener，将我们想要传递的cookie配置到opener中，然后使用这个opener的open方法来发起请求。

from http import cookiejar

from urllib import request

url = 'http://httpbin.org/cookies'

# 创建一个cookiejar对象

cookie = cookiejar.CookieJar()

# 使用HTTPCookieProcessor创建cookie处理器

cookies = request.HTTPCookieProcessor(cookie)

# 并以它为参数创建Opener对象

opener = request.build_opener(cookies)

# 使用这个opener来发起请求

resp = opener.open(url)

print(resp.read().decode())

或者也可以把这个生成的opener使用install_opener方法来设置为全局的。

则之后使用urlopen方法发起请求时，都会带上这个cookie。

# 将这个opener设置为全局的opener

request.install_opener(opener)

resp = request.urlopen(url)

设置Proxy代理

使用爬虫来爬取数据的时候，常常需要使用代理来隐藏我们的真实IP。

from urllib import request

url = 'http://httpbin.org/ip'

proxy = {'http':'50.233.137.33:80','https':'50.233.137.33:80'}

# 创建代理处理器

proxies = request.ProxyHandler(proxy)

# 创建opener对象

opener = request.build_opener(proxies)

resp = opener.open(url)

print(resp.read().decode())

下载数据到本地

在我们进行网络请求时常常需要保存图片或音频等数据到本地，一种方法是使用python的文件操作，将read()获取的数据保存到文件中。

而urllib提供了一个urlretrieve()方法，可以简单的直接将请求获取的数据保存成文件。

from urllib import request

url = 'http://python.org/'

request.urlretrieve(url, 'python.html')

urlretrieve()方法传入的第二个参数为文件保存的位置，以及文件名。

注：urlretrieve()方法是python2直接移植过来的方法，以后有可能在某个版本中弃用。

urllib.response

在使用urlopen()方法或者opener的open()方法发起请求后，获得的结果是一个response对象。

这个对象有一些方法和属性，可以让我们对请求返回的结果进行一些处理。

read()

获取响应返回的数据，只能使用一次。
getcode()

获取服务器返回的状态码。
getheaders()

获取返回响应的响应报头。
geturl()

获取访问的url。

urllib.parse

urllib.parse是urllib中用来解析各种数据格式的模块。

urllib.parse.quote

在url中，是只能使用ASCII中包含的字符的，也就是说，ASCII不包含的特殊字符，以及中文等字符都是不可以在url中使用的。而我们有时候又有将中文字符加入到url中的需求，例如百度的搜索地址：

https://www.baidu.com/s?wd=南北

？之后的wd参数，则是我们搜索的关键词。那么我们实现的方法就是将特殊字符进行url编码，转换成可以url可以传输的格式，urllib中可以使用quote()方法来实现这个功能。

>>> from urllib import parse

>>> keyword = '南北'

>>> parse.quote(keyword)

'%E5%8D%97%E5%8C%97'

如果需要将编码后的数据转换回来，可以使用unquote()方法。

>>> parse.unquote('%E5%8D%97%E5%8C%97')

'南北'

urllib.parse.urlencode

在访问url时，我们常常需要传递很多的url参数，而如果用字符串的方法去拼接url的话，会比较麻烦，所以urllib中提供了urlencode这个方法来拼接url参数。

>>> from urllib import parse

>>> params = {'wd': '南北', 'code': '1', 'height': '188'}

>>> parse.urlencode(params)

'wd=%E5%8D%97%E5%8C%97&code=1&height=188'

urllib.error

在urllib中主要设置了两个异常，一个是URLError，一个是HTTPError，HTTPError是URLError的子类。

HTTPError还包含了三个属性：

code：请求的状态码
reason：错误的原因
headers：响应的报头

例子：

In [1]: from urllib.error import HTTPError

In [2]: try:

   ...:     request.urlopen('https://www.jianshu.com')

   ...: except HTTPError as e:

   ...:     print(e.code)

403

urllib3

Urllib3是一个功能强大，条理清晰，用于HTTP客户端的Python库。许多Python的原生系统已经开始使用urllib3。Urllib3提供了很多python标准库urllib里所没有的重要特性：

线程安全
连接池
客户端SSL/TLS验证
文件分部编码上传
协助处理重复请求和HTTP重定位
支持压缩编码
支持HTTP和SOCKS代理

安装

urllib3是一个第三方库，安装非常简单，pip安装即可：

pip install urllib3

使用

urllib3主要使用连接池进行网络请求的访问，所以访问之前我们需要创建一个连接池对象，如下所示：

>>> import urllib3

>>> http = urllib3.PoolManager()

>>> r = http.request('GET', 'http://httpbin.org/robots.txt')

>>> r.status

200

>>> r.data

'User-agent: *\nDisallow: /deny\n'

设置headers

headers={'X-Something': 'value'}

resp = http.request('GET', 'http://httpbin.org/headers', headers=headers)

设置url参数

对于GET等没有请求正文的请求方法，可以简单的通过设置fields参数来设置url参数。

fields = {'arg': 'value'}

resp = http.request('GET', 'http://httpbin.org/get', fields=fields)

如果使用的是POST等方法，则会将fields作为请求的请求正文发送。

所以，如果你的POST请求是需要url参数的话，那么需要自己对url进行拼接。

fields = {'arg': 'value'}

resp = http.request('POST', 'http://httpbin.org/get', fields=fields)

设置代理

>>> import urllib3

>>> proxy = urllib3.ProxyManager('http://50.233.137.33:80', headers={'connection': 'keep-alive'})

>>> resp = proxy.request('get', 'http://httpbin.org/ip')

>>> resp.status

200

>>> resp.data

b'{"origin":"50.233.136.254"}\n'

注：urllib3中没有直接设置cookies的方法和参数，只能将cookies设置到headers中

潭州课堂25班：Ph201805201 爬虫基础第三课 urllib (课堂笔记)的更多相关文章

潭州课堂25班：Ph201805201 爬虫基础第八课 selenium (课堂笔记）
Selenium笔记(1)安装和简单使用简介 Selenium是一个用于Web应用程序测试的工具. Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, ...
潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)
HTML解析库BeautifulSoup4 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间 ...
潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）
# -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/15 0015 4:52 #cookie 是服务器发给浏览器的特殊信息 # 可以理解为一个临时通行证 # ...
潭州课堂25班：Ph201805201 爬虫基础第四课 Requests (课堂笔记)
优雅到骨子里的Requests 1528811134432 简介上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法,那么,作为同样是网络请求库的Request ...
潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）
打开网易盾 http://dun.163.com/trial/picture-click ——在线体验——图中点选打码平台 ——超级鹰 http://www.chaojiying.com/ ...
潭州课堂25班：Ph201805201 爬虫基础第十课图像处理- 极验验证码 (课堂笔记）
用 python 的 selenium 访问 https://www.huxiu.com/ 自动通过验证码 # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 20 ...
潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)
打开图形界面 18版 Python与常见加密方式前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes. 所以当我们在Python中进行加密操作的时 ...
潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)
动态讲求 , 翻页参数: # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/1 0001 3:44 import requests,json class ...
潭州课堂25班：Ph201805201 爬虫高级第三课 sclapy 框架腾讯招聘案例 (课堂笔记）
到指定目录下,创建个项目进到 spiders 目录创建执行文件,并命名运行调试执行代码,: # -*- coding: utf-8 -*- import scrapy from ..items ...

随机推荐

Django 利用管理器实现文章归档
Django管理器:class Manager 管理器是Django的模型进行数据库查询的接口,Django应用的每个模型都拥有至少一个管理器.默认情况下,Django为每个模型类添加一个名为obje ...
SHA1算法原理
一．SHA1与MD5差异 SHA1对任意长度明文的预处理和MD5的过程是一样的,即预处理完后的明文长度是512位的整数倍,但是有一点不同,那就是SHA1的原始报文长度不能超过2的64次方,然后SHA1 ...
linux内核capable源代码分析【转】
转自:https://blog.csdn.net/sanwenyublog/article/details/50856849 linux内核里对于进程的权限管理有一个很重要的函数capable,以前看 ...
mysql重置登录密码
1.停止mysql服务. services.msc进入服务界面停止mysql服务 2.打开一个cmd窗口. 输入mysqld --skip-grant-tables 启动了一个新的mysql服务跳 ...
nginx报错：403 Forbidden 并且访问首页index.php是下载文件的状态
nginx报错:403 Forbidden 并且访问首页index.php是下载文件的状态,不能正常解析php 系统有其他两个站访问是正常的看日志没有看到明显的错误搜索了下: 答案如下: php的 ...
centos6.7安装系统后看不到网卡无法配置IP的解决办法
新安装centos6.7后发现/etc/sysconfig/network-scripts目录下没有eth0的网卡配置,通过ifconfig可以看到eth0的硬件地址于是新建网卡输入一下内容 # c ...
Centos7中查看IP并启动网卡
1.开机,输入用户名root和密码 2.查看IP地址:ip addr 3.使用vi编辑器打开配置文件,注意vi后面有空格: vi /etc/sysconfig/network-scripts/ifcf ...
PyCharm更改字体和界面样式
更改主题 File → Settings → Appearance & Behavior → Appearance → Theme 结果: 更改字体大小 File → Settings → E ...
plsql developer连接Oracle报错ORA-12154: TNS:could not resolve the connect identifier specified
今日更改Oracle网络配置文件后使用plsql developer 尝试连接到Oracle出现报错 ORA-12154: TNS:could not resolve the connect iden ...
jmeter正则表达式提取器多模块相互调用
提取return的结果 (1)例: 创建账户和转账功能注:以下为soap协议添加账户1 创建正则表达式提取器(提取创建的结果) 点击导入接口文档URL地址和方框内方法同上方法添加账户2 点击正则 ...

潭州课堂25班：Ph201805201 爬虫基础 第三课 urllib (课堂笔记)