优雅到骨子里的Requests

1528811134432

简介

上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法，那么，作为同样是网络请求库的Requests，相对于urllib，有什么优点呢？

其实，只有两个词，简单优雅。

Requests的宣言就是：HTTP for Humans。可以说，Requests彻底贯彻了Python所代表的简单优雅的精神。

之前的urllib做为Python的标准库，因为历史原因，使用的方式可以说是非常的麻烦而复杂的，而且官方文档也十分的简陋，常常需要去查看源码。与之相反的是，Requests的使用方式非常的简单、直观、人性化，让程序员的精力完全从库的使用中解放出来。

甚至在官方的urllib.request的文档中，有这样一句话来推荐Requests：

The Requests packageis recommended for a higher-level HTTP client interface.

Requests的官方文档同样也非常的完善详尽，而且少见的有中文官方文档：http://cn.python-requests.org/zh_CN/latest/。

当然，为了保证准确性，还是尽量查看英文文档为好。

作者

Requests的作者Kenneth Reitz同样是一个富有传奇色彩的人物。

Kenneth Reitz在有着“云服务鼻祖”之称的Heroku 公司，28岁时就担任了Python 语言的总架构师。他做了什么呢？随便列几个项目名称: requests、python-guide、pipenv、legit、autoenv，当然它也给Python界很多知名的开源项目贡献了代码，比如Flask。

可以说他是Python领域举足轻重的人物，他的代码追求一种强迫症般的美感。

大佬的传奇还不止于此，这是他当年在PyCON演讲时的照片：

1528811511456

非常可爱的小胖子，同时也符合着大众对于程序员的一些刻板印象：胖、不太修边幅、腼腆。

但是几年后，他变成了这样：

1528811688447

emmmmm，帅哥，你这是去哪整的容？

哈哈，开个玩笑。不过确实外貌方面的改变非常的巨大，由一个小肥宅的形象变得帅气潇洒。可见只要愿意去追求，我们都能变成我们想要的样子。

例子与特性

可以说Requests最大的特性就是其风格的简单直接优雅。无论是请求方法，还是响应结果的处理，还有cookies，url参数，post提交数据，都体现出了这种风格。

以下是一个简单例子：

>>> import requests

>>> resp = requests.get('https://www.baidu.com')

>>> resp.status_code

200

>>> resp.headers['content-type']

'application/json; charset=utf8'

>>> resp.encoding

'utf-8'

>>> resp.text

u'{"type":"User"...'

可以看到，不论是请求的发起还是相应的处理，都是非常直观明了的。

Requests目前基本上完全满足web请求的所有需求，以下是Requests的特性：

Keep-Alive & 连接池
国际化域名和 URL
带持久 Cookie 的会话
浏览器式的 SSL 认证
自动内容解码
基本/摘要式的身份认证
优雅的 key/value Cookie
自动解压
Unicode 响应体
HTTP(S) 代理支持
文件分块上传
流下载
连接超时
分块请求
支持 .netrc

而Requests 3.0目前也募集到了资金正在开发中，预计会支持async/await来实现并发请求，且可能会支持HTTP 2.0。

安装

Requests的安装非常的简单，直接PIP安装即可：

pip install requests

使用

Requests的请求不再像urllib一样需要去构造各种Request、opener和handler，使用Requests构造的方法，并在其中传入需要的参数即可。

发起请求

请求方法

每一个请求方法都有一个对应的API，比如GET请求就可以使用get()方法：

>>> import requests

>>> resp = requests.get('https://www.baidu.com')

而POST请求就可以使用post()方法，并且将需要提交的数据传递给data参数即可：

>>> import requests

>>> resp = requests.post('http://httpbin.org/post', data = {'key':'value'})

而其他的请求类型，都有各自对应的方法：

>>> resp = requests.put('http://httpbin.org/put', data = {'key':'value'})

>>> resp = requests.delete('http://httpbin.org/delete')

>>> resp = requests.head('http://httpbin.org/get')

>>> resp = requests.options('http://httpbin.org/get')

非常的简单直观明了。

传递URL参数

传递URL参数也不用再像urllib中那样需要去拼接URL，而是简单的，构造一个字典，并在请求时将其传递给params参数：

>>> import requests

>>> params = {'key1': 'value1', 'key2': 'value2'}

>>> resp = requests.get("http://httpbin.org/get", params=params)

此时，查看请求的URL，则可以看到URL已经构造正确了：

>>> print(resp.url)

http://httpbin.org/get?key2=value2&key1=value1

并且，有时候我们会遇到相同的url参数名，但有不同的值，而python的字典又不支持键的重名，那么我们可以把键的值用列表表示：

>>> params = {'key1': 'value1', 'key2': ['value2', 'value3']}

>>> resp = requests.get('http://httpbin.org/get', params=params)

>>> print(resp.url)

http://httpbin.org/get?key1=value1&key2=value2&key2=value3

自定义Headers

如果想自定义请求的Headers，同样的将字典数据传递给headers参数。

>>> url = 'https://api.github.com/some/endpoint'

>>> headers = {'user-agent': 'my-app/0.0.1'}

>>> resp = requests.get(url, headers=headers)

自定义Cookies

Requests中自定义Cookies也不用再去构造CookieJar对象，直接将字典递给cookies参数。

>>> url = 'http://httpbin.org/cookies'

>>> cookies = {'cookies_are': 'working'}

>>> resp = requests.get(url, cookies=cookies)

>>> resp.text

'{"cookies": {"cookies_are": "working"}}'

设置代理

当我们需要使用代理时，同样构造代理字典，传递给proxies参数。

import requests

proxies = {

  'http': 'http://10.10.1.10:3128',

  'https': 'http://10.10.1.10:1080',

}

requests.get('http://example.org', proxies=proxies)

重定向

在网络请求中，我们常常会遇到状态码是3开头的重定向问题，在Requests中是默认开启允许重定向的，即遇到重定向时，会自动继续访问。

>>> resp = requests.get('http://github.com', allow_redirects=False)

>>> resp.status_code

301

禁止证书验证

有时候我们使用了抓包工具，这个时候由于抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的，所以证书的验证会失败，所以我们就需要关闭证书验证。

在请求的时候把verify参数设置为False就可以关闭证书验证了。

>>> import requests

>>> resp = requests.get('http://httpbin.org/post', verify=False)

但是关闭验证后，会有一个比较烦人的warning

py:858: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings

  InsecureRequestWarning)

可以使用以下方法关闭警告：

from requests.packages.urllib3.exceptions import InsecureRequestWarning

# 禁用安全请求警告

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

设置超时

设置访问超时，设置timeout参数即可。

>>> requests.get('http://github.com', timeout=0.001)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

可见，通过Requests发起请求，只需要构造好几个需要的字典，并将其传入请求的方法中，即可完成基本的网络请求。

响应

通过Requests发起请求获取到的，是一个requests.models.Response对象。通过这个对象我们可以很方便的获取响应的内容。

响应内容卜卦

之前通过urllib获取的响应，读取的内容都是bytes的二进制格式，需要我们自己去将结果decode()一次转换成字符串数据。

而Requests通过text属性，就可以获得字符串格式的响应内容。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.text

u'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests会自动的根据响应的报头来猜测网页的编码是什么，然后根据猜测的编码来解码网页内容，基本上大部分的网页都能够正确的被解码。而如果发现text解码不正确的时候，就需要我们自己手动的去指定解码的编码格式。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.encoding = 'utf-8'

>>> resp.text

u'[{"repository":{"open_issues":0,"url":"https://github.com/...

而如果你需要获得原始的二进制数据，那么使用content属性即可。

>>> resp.content

b'[{"repository":{"open_issues":0,"url":"https://github.com/...

如果我们访问之后获得的数据是JSON格式的，那么我们可以使用json()方法，直接获取转换成字典格式的数据。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.json()

[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

状态码

通过status_code属性获取响应的状态码

>>> resp = requests.get('http://httpbin.org/get')

>>> resp.status_code

200

响应报头

通过headers属性获取响应的报头

>>> r.headers

{

    'content-encoding': 'gzip',

    'transfer-encoding': 'chunked',

    'connection': 'close',

    'server': 'nginx/1.0.4',

    'x-runtime': '148ms',

    'etag': '"e1ca502697e5c9317743dc078f67693f"',

    'content-type': 'application/json'

}

服务器返回的cookies

通过cookies属性获取服务器返回的cookies

>>> url = 'http://example.com/some/cookie/setting/url'

>>> resp = requests.get(url)

>>> resp.cookies['example_cookie_name']

'example_cookie_value'

url

还可以使用url属性查看访问的url。

>>> import requests

>>> params = {'key1': 'value1', 'key2': 'value2'}

>>> resp = requests.get("http://httpbin.org/get", params=params)

>>> print(resp.url)

http://httpbin.org/get?key2=value2&key1=value1

Session

在Requests中，实现了Session(会话)功能，当我们使用Session时，能够像浏览器一样，在没有关闭关闭浏览器时，能够保持住访问的状态。

这个功能常常被我们用于登陆之后的数据获取，使我们不用再一次又一次的传递cookies。

import requests

session = requests.Session()

session.get('http://httpbin.org/cookies/set/sessioncookie/123456789')

resp = session.get('http://httpbin.org/cookies')

print(resp.text)

# '{"cookies": {"sessioncookie": "123456789"}}'

首先我们需要去生成一个Session对象，然后用这个Session对象来发起访问，发起访问的方法与正常的请求是一摸一样的。

同时，需要注意的是，如果是我们在get()方法中传入headers和cookies等数据，那么这些数据只在当前这一次请求中有效。如果你想要让一个headers在Session的整个生命周期内都有效的话，需要用以下的方式来进行设置：

# 设置整个headers

session.headers = {

    'user-agent': 'my-app/0.0.1'

}

# 增加一条headers

session.headers.update({'x-test': 'true'})

后记：或许有人不认可代码的美学，认为代码写的丑没事，能跑起来就好。但是我始终认为，世间万物都应该是美好的，追求美好的脚步也不应该停止。

内容补充：

get 方法

返回有 5 个属性

异常处理

返回200 正确

对应的 HTTP 协议

json参数

headers 参数

files 参数

timeout 参数，以秒为单位

proxies 参数设置代理服务器

潭州课堂25班：Ph201805201 爬虫基础第四课 Requests (课堂笔记)的更多相关文章

潭州课堂25班：Ph201805201 爬虫基础第八课 selenium (课堂笔记）
Selenium笔记(1)安装和简单使用简介 Selenium是一个用于Web应用程序测试的工具. Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, ...
潭州课堂25班：Ph201805201 爬虫基础第三课 urllib (课堂笔记)
Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了url ...
潭州课堂25班：Ph201805201 爬虫基础第六课选择器 (课堂笔记)
HTML解析库BeautifulSoup4 BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间 ...
潭州课堂25班：Ph201805201 爬虫基础第十三课 cookie (课堂笔记）
# -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/15 0015 4:52 #cookie 是服务器发给浏览器的特殊信息 # 可以理解为一个临时通行证 # ...
潭州课堂25班：Ph201805201 爬虫基础第十一课点触验证码 (课堂笔记）
打开网易盾 http://dun.163.com/trial/picture-click ——在线体验——图中点选打码平台 ——超级鹰 http://www.chaojiying.com/ ...
潭州课堂25班：Ph201805201 爬虫基础第十课图像处理- 极验验证码 (课堂笔记）
用 python 的 selenium 访问 https://www.huxiu.com/ 自动通过验证码 # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 20 ...
潭州课堂25班：Ph201805201 爬虫基础第七课 Python与常见加密方式 (课堂笔记)
打开图形界面 18版 Python与常见加密方式前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes. 所以当我们在Python中进行加密操作的时 ...
潭州课堂25班：Ph201805201 爬虫基础第五课（案例）豆瓣分析 (课堂笔记)
动态讲求 , 翻页参数: # -*- coding: utf-8 -*- # 斌彬电脑 # @Time : 2018/9/1 0001 3:44 import requests,json class ...
潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）
以上内容以 spider 类获取 start_urls 里面的网页在这里平时只写一个,是个入口,之后通过 xpath 生成 url,继续请求, crawispider 中多了个 rules ...

随机推荐

六、regularized logisitic regssion练习（转载）
转载链接:http://www.cnblogs.com/tornadomeet/archive/2013/03/17/2964858.html 在上一讲Deep learning:五(regulari ...
Ajax+json+jquery实现无限瀑布流布局
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
MariaDB基于GTID主从复制及多主复制
一.简单主从模式配置步骤(必须要mysql5.6,此处以maridb10.0.10为例) 1.配置主从节点的服务配置文件 # vim /etc/my.cnf 1.1.配置master节点: [mysq ...
转载：2.2.5 在配置中使用变量《深入理解Nginx》（陶辉）
原文:https://book.2cto.com/201304/19630.html 有些模块允许在配置项中使用变量,如在日志记录部分,具体示例如下.log_format main '$remot ...
centos7忘记登录密码修改
很多时候我们都会忘记Linux root 用户的口令,下面就教大家如果忘记root口令怎么办第1步:开机后在内核上按“e”.截图如下按e以后会进入内核启动页面,如下图第2步:在linux16这行 ...
并发之AQS原理(三) 如何保证并发
并发之AQS原理(三) 如何保证并发 1. 如何保证并发 AbstractQueuedSynchronizer 维护了一个state(代表了共享资源)和一个FIFO线程等待队列(多线程竞争资源被阻塞时 ...
Fiddler抓包9-保存会话（save）
前言为什么要保存会话呢?举个很简单的场景,你在上海测试某个功能接口的时候,发现了一个BUG,而开发这个接口的开发人员是北京的一家合作公司.你这时候给对方开发提bug, 如何显得专业一点,能让对方心服 ...
python 全栈开发，Day81(博客系统个人主页,文章详情页)
一.个人主页随笔分类需求:查询当前站点每一个分类的名称以及对应的文章数完成这个需求,就可以展示左侧的分类它需要利用分组查询,那么必须要会基于双下划线的查询. 基于双下划线的查询,简单来讲,就是 ...
《LINQ技术详解C#》-2.查询表达式翻译为标准查询操作符
(1)透明标识符有些翻译步骤要使用透明标识符(*)插入枚举变量. 透明标识符只在翻译过程中存在,翻译结束将不再出现. (2)翻译步骤 ①带有into连续语句的Select和Group语句 from. ...
观察者模式(Observer Pattern)
一.概述在软件设计工作中会存在对象之间的依赖关系,当某一对象发生变化时,所有依赖它的对象都需要得到通知.如果设计的不好,很容易造成对象之间的耦合度太高,难以应对变化.使用观察者模式可以降低对象之间的依 ...

潭州课堂25班：Ph201805201 爬虫基础 第四课 Requests (课堂笔记)