优雅到骨子里的Requests

本文地址：https://www.jianshu.com/p/678489e022c8

简介

上一篇文章介绍了Python的网络请求库urllib和urllib3的使用方法，那么，作为同样是网络请求库的Requests，相对于urllib，有什么优点呢？

其实，只有两个词，简单优雅。

Requests的宣言就是：HTTP for Humans。可以说，Requests彻底贯彻了Python所代表的简单优雅的精神。

之前的urllib做为Python的标准库，因为历史原因，使用的方式可以说是非常的麻烦而复杂的，而且官方文档也十分的简陋，常常需要去查看源码。与之相反的是，Requests的使用方式非常的简单、直观、人性化，让程序员的精力完全从库的使用中解放出来。

甚至在官方的urllib.request的文档中，有这样一句话来推荐Requests：

The Requests packageis recommended for a higher-level HTTP client interface.

Requests的官方文档同样也非常的完善详尽，而且少见的有中文官方文档：http://cn.python-requests.org/zh_CN/latest/。

英文文档：http://docs.python-requests.org/en/master/api/

当然，为了保证准确性，还是尽量查看英文文档为好。

作者

Requests的作者Kenneth Reitz同样是一个富有传奇色彩的人物。

Kenneth Reitz在有着“云服务鼻祖”之称的Heroku 公司，28岁时就担任了Python 语言的总架构师。他做了什么呢？随便列几个项目名称: requests、python-guide、pipenv、legit、autoenv，当然它也给Python界很多知名的开源项目贡献了代码，比如Flask。

可以说他是Python领域举足轻重的人物，他的代码追求一种强迫症般的美感。

大佬的传奇还不止于此，这是他当年在PyCON演讲时的照片：

非常可爱的小胖子，同时也符合着大众对于程序员的一些刻板印象：胖、不太修边幅、腼腆。

但是几年后，他变成了这样：

emmmmm，帅哥，你这是去哪整的容？

哈哈，开个玩笑。不过确实外貌方面的改变非常的巨大，由一个小肥宅的形象变得帅气潇洒。

所以千万不要给自己懒散的生活态度，找任何借口。你可以变得更棒！

只要愿意去追求，我们都能变成我们想要的样子。

例子与特性

可以说Requests最大的特性就是其风格的简单直接优雅。无论是请求方法，还是响应结果的处理，还有cookies，url参数，post提交数据，都体现出了这种风格。

以下是一个简单例子：

>>> import requests
>>> resp = requests.get('https://www.baidu.com')

>>> resp.status_code
200

>>> resp.headers['content-type']
'application/json; charset=utf8'

>>> resp.encoding
'utf-8'

>>> resp.text
u'{"type":"User"...'

可以看到，不论是请求的发起还是相应的处理，都是非常直观明了的。

Requests目前基本上完全满足web请求的所有需求，以下是Requests的特性：

Keep-Alive & 连接池
国际化域名和 URL
带持久 Cookie 的会话
浏览器式的 SSL 认证
自动内容解码
基本/摘要式的身份认证
优雅的 key/value Cookie
自动解压
Unicode 响应体
HTTP(S) 代理支持
文件分块上传
流下载
连接超时
分块请求
支持 .netrc

而Requests 3.0目前也募集到了资金正在开发中，预计会支持async/await来实现并发请求，且可能会支持HTTP 2.0。

安装

Requests的安装非常的简单，直接PIP安装即可：

pip install requests

使用

Requests的请求不再像urllib一样需要去构造各种Request、opener和handler，使用Requests构造的方法，并在其中传入需要的参数即可。

发起请求

请求方法

每一个请求方法都有一个对应的API，比如GET请求就可以使用get()方法：

>>> import requests
>>> resp = requests.get('https://www.baidu.com')

而POST请求就可以使用post()方法，并且将需要提交的数据传递给data参数即可：

>>> import requests
>>> resp = requests.post('http://httpbin.org/post', data = {'key':'value'})

而其他的请求类型，都有各自对应的方法：

>>> resp = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> resp = requests.delete('http://httpbin.org/delete')
>>> resp = requests.head('http://httpbin.org/get')
>>> resp = requests.options('http://httpbin.org/get')

非常的简单直观明了。

传递URL参数

传递URL参数也不用再像urllib中那样需要去拼接URL，而是简单的，构造一个字典，并在请求时将其传递给params参数：

>>> import requests
>>> params = {'key1': 'value1', 'key2': 'value2'}
>>> resp = requests.get("http://httpbin.org/get", params=params)

此时，查看请求的URL，则可以看到URL已经构造正确了：

>>> print(resp.url)
http://httpbin.org/get?key2=value2&key1=value1

并且，有时候我们会遇到相同的url参数名，但有不同的值，而python的字典又不支持键的重名，那么我们可以把键的值用列表表示：

>>> params = {'key1': 'value1', 'key2': ['value2', 'value3']}
>>> resp = requests.get('http://httpbin.org/get', params=params)
>>> print(resp.url)
http://httpbin.org/get?key1=value1&key2=value2&key2=value3

自定义Headers

如果想自定义请求的Headers，同样的将字典数据传递给headers参数。

>>> url = 'https://api.github.com/some/endpoint'

>>> headers = {'user-agent': 'my-app/0.0.1'}

>>> resp = requests.get(url, headers=headers)

自定义Cookies

Requests中自定义Cookies也不用再去构造CookieJar对象，直接将字典递给cookies参数。

>>> url = 'http://httpbin.org/cookies'

>>> cookies = {'cookies_are': 'working'}

>>> resp = requests.get(url, cookies=cookies)

>>> resp.text

'{"cookies": {"cookies_are": "working"}}'

设置代理

当我们需要使用代理时，同样构造代理字典，传递给proxies参数。

import requests

proxies = {

  'http': 'http://10.10.1.10:3128',

  'https': 'http://10.10.1.10:1080',

}

requests.get('http://example.org', proxies=proxies)

重定向

在网络请求中，我们常常会遇到状态码是3开头的重定向问题，在Requests中是默认开启允许重定向的，即遇到重定向时，会自动继续访问。

>>> resp = requests.get('http://github.com', allow_redirects=False)

>>> resp.status_code

301

禁止证书验证

有时候我们使用了抓包工具，这个时候由于抓包工具提供的证书并不是由受信任的数字证书颁发机构颁发的，所以证书的验证会失败，所以我们就需要关闭证书验证。

在请求的时候把verify参数设置为False就可以关闭证书验证了。

>>> import requests

>>> resp = requests.get('http://httpbin.org/post', verify=False)

但是关闭验证后，会有一个比较烦人的warning

py:858: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings

  InsecureRequestWarning)

可以使用以下方法关闭警告：

from requests.packages.urllib3.exceptions import InsecureRequestWarning

# 禁用安全请求警告

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

设置超时

设置访问超时，设置timeout参数即可。

>>> requests.get('http://github.com', timeout=0.001)

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

可见，通过Requests发起请求，只需要构造好几个需要的字典，并将其传入请求的方法中，即可完成基本的网络请求。

响应

通过Requests发起请求获取到的，是一个requests.models.Response对象。通过这个对象我们可以很方便的获取响应的内容。

响应内容

之前通过urllib获取的响应，读取的内容都是bytes的二进制格式，需要我们自己去将结果decode()一次转换成字符串数据。

而Requests通过text属性，就可以获得字符串格式的响应内容。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.text

u'[{"repository":{"open_issues":0,"url":"https://github.com/...

Requests会自动的根据响应的报头来猜测网页的编码是什么，然后根据猜测的编码来解码网页内容，基本上大部分的网页都能够正确的被解码。而如果发现text解码不正确的时候，就需要我们自己手动的去指定解码的编码格式。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.encoding = 'utf-8'

>>> resp.text

u'[{"repository":{"open_issues":0,"url":"https://github.com/...

而如果你需要获得原始的二进制数据，那么使用content属性即可。

>>> resp.content

b'[{"repository":{"open_issues":0,"url":"https://github.com/...

如果我们访问之后获得的数据是JSON格式的，那么我们可以使用json()方法，直接获取转换成字典格式的数据。

>>> import requests

>>> resp = requests.get('https://api.github.com/events')

>>> resp.json()

[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

状态码

通过status_code属性获取响应的状态码

>>> resp = requests.get('http://httpbin.org/get')

>>> resp.status_code

200

响应报头

通过headers属性获取响应的报头

>>> r.headers

{

    'content-encoding': 'gzip',

    'transfer-encoding': 'chunked',

    'connection': 'close',

    'server': 'nginx/1.0.4',

    'x-runtime': '148ms',

    'etag': '"e1ca502697e5c9317743dc078f67693f"',

    'content-type': 'application/json'

}

服务器返回的cookies

通过cookies属性获取服务器返回的cookies

>>> url = 'http://example.com/some/cookie/setting/url'

>>> resp = requests.get(url)

>>> resp.cookies['example_cookie_name']

'example_cookie_value'

url

还可以使用url属性查看访问的url。

>>> import requests

>>> params = {'key1': 'value1', 'key2': 'value2'}

>>> resp = requests.get("http://httpbin.org/get", params=params)

>>> print(resp.url)

http://httpbin.org/get?key2=value2&key1=value1

Session

在Requests中，实现了Session(会话)功能，当我们使用Session时，能够像浏览器一样，在没有关闭关闭浏览器时，能够保持住访问的状态。

这个功能常常被我们用于登陆之后的数据获取，使我们不用再一次又一次的传递cookies。

import requests

session = requests.Session()

session.get('http://httpbin.org/cookies/set/sessioncookie/123456789')

resp = session.get('http://httpbin.org/cookies')

print(resp.text)

# '{"cookies": {"sessioncookie": "123456789"}}'

首先我们需要去生成一个Session对象，然后用这个Session对象来发起访问，发起访问的方法与正常的请求是一摸一样的。

同时，需要注意的是，如果是我们在get()方法中传入headers和cookies等数据，那么这些数据只在当前这一次请求中有效。如果你想要让一个headers在Session的整个生命周期内都有效的话，需要用以下的方式来进行设置：

# 设置整个headers

session.headers = {

    'user-agent': 'my-app/0.0.1'

}

# 增加一条headers

session.headers.update({'x-test': 'true'})

后记：或许有人不认可代码的美学，认为代码写的丑没事，能跑起来就好。但是我始终认为，世间万物都应该是美好的，追求美好的脚步也不应该停止。

python爬虫基础03-requests库的更多相关文章

python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
PYTHON 爬虫笔记三:Requests库的基本使用
知识点一:Requests的详解及其基本使用方法什么是requests库 Requests库是用Python编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库,相比u ...
Python爬虫基础之requests
一.随时随地爬取一个网页下来怎么爬取网页?对网站开发了解的都知道,浏览器访问Url向服务器发送请求,服务器响应浏览器请求并返回一堆HTML信息,其中包括html标签,css样式,js脚本等.我们之前 ...
Python爬虫的开始——requests库建立请求
接下来我将会用一段时间来更新python爬虫网络爬虫大体可以分为三个步骤. 首先建立请求,爬取所需元素: 其次解析爬取信息,剔除无效数据: 最后将爬取信息进行保存: 今天就先来讲讲第一步,请求库re ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
python爬虫#网络请求requests库
中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urlli ...
【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
网络爬虫入门：你的第一个爬虫项目（requests库）
0.采用requests库虽然urllib库应用也很广泛,而且作为Python自带的库无需安装,但是大部分的现在python爬虫都应用requests库来处理复杂的http请求.requests库语 ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...

随机推荐

python3错误之TypeError: 'dict_items' object is not callable
这种错误出现在循环结构中套循环结构,而循环时内部循环为字典,外部循环为该字典调用items方法后取到的值,内部循环调用外部循环中遍历的结果: 解决方案: 将外部循环的items()方法调用改为.key ...
tensorflow：实战Google深度学习框架第三章
tensorflow的计算模型:计算图–tf.Graph tensorflow的数据模型:张量–tf.Tensor tensorflow的运行模型:会话–tf.Session tensorflow可视 ...
2017浙江工业大学-校赛决赛小M和天平
Description 小M想知道某件物品的重量,但是摆在他面前的只有一个天平(没有游标)和一堆石子,石子可以放左边也可以放右边.他现在知道每个石子的重量.问能不能根据上述条件,能不能测出所问的重量. ...
Count on a tree II SPOJ - COT2 && bzoj1086 王室联邦 && bzoj2589
https://cn.vjudge.net/problem/SPOJ-COT2 这个是树上莫队模版啊.. 树上莫队有两种,第一种就是括号序莫队设节点i在括号序中首次出现位置为pl[i] 那么路径(i ...
UG 常用设置
Q01:UG制图,添加基本视图之后的中心线怎么去掉? A01:“菜单-->文件-->首选项-->制图-->视图-->公共-->常规-->□带中心线创建”,取消 ...
NFX UNISTACK 介绍
学习.NET Core和ASP.NET Core,偶然搜索到NFX UNISTACK,现翻译一下Readme,工程/原文:https://github.com/aumcode/nfx NFX Serv ...
IIS发布MVC应用程序问题
1.IIS7.5详细错误 HTTP 错误 500.19 - Internal Server Error 无法访问请求的页面,因为该页的相关配置数据无效重复定义了“system.web.extensi ...
TAIL and HEAD
TAIL and HEAD tail tail:将指定的文件的最后部分输出到标准设备,通常是终端,和cat以及more等显示文本的差别在于:假设该档案有更新,tail会自己主动刷新,确保你看到最新的档 ...
dispaly:none 和visibility :hidden的区别
display:none 通常被 JavaScript 用来在不删除元素的情况下隐藏或显示元素. 它和 visibility 属性不一样.把 display 设置成 none 元素不会占据它本来应该显 ...
访问NopCommerce的Admin 运行Nop.Admin后台管理
Step 1.下载和安装NopCommerce的源码: Step 2.打开和运行Presentation下的Nop.Web 项目: Step 3.初次运行会弹出界面配置管理员账号和数据库信息: ...

python爬虫基础03-requests库