Requests: 让 HTTP 服务人类

一、简介

虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。

Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：）

Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3
Requests的文档非常完备，中文文档也相当不错。Requests能完全满足当前网络的需求，支持Python 2.6—3.5，而且能在PyPy下完美运行。

开源地址：https://github.com/kennethreitz/requests

中文文档 API：http://docs.python-requests.org/zh_CN/latest/index.html

二、安装方式

利用 pip 安装或者利用 easy_install 都可以完成安装：

$ pip install requests

$ easy_install requests
基本GET请求（headers参数和 parmas参数）

三、 GET请求

import requests

response = requests.get("http://www.baidu.com/")

print(response.content.decode("utf-8"))

也可以这么写

response = requests.request("get", "http://www.baidu.com/")
2. 添加 headers 和查询参数
如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用params参数。

import requests

kw = {'wd':'长城'}

# 请求头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;

Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

 Chrome/54.0.2840.99 Safari/537.36"}

# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，

#不需要urlencode()

url = "http://www.baidu.com/s?"

response = requests.get(url, params = kw, headers = headers)

# 查看响应内容，response.text 返回的是Unicode格式的数据

print(response.text)

# 查看响应内容，response.content返回的字节流数据

print(response.content)

# 查看完整url地址

print(response.url)

# 查看响应头部字符编码

print(response.encoding)

# 查看响应码

print(response.status_code)

运行结果



......

......

'http://www.baidu.com/s?wd=%E9%95%BF%E5%9F%8E'

'utf-8'

200

使用response.text 时，Requests 会基于 HTTP 响应的文本编码自动解码响应内容，大多数 Unicode 字符集都能被无缝地解码。

使用response.content 时，返回的是服务器响应数据的原始二进制字节流，可以用来保存图片等二进制文件。

四、POST请求

最基本的GET请求可以直接用post方法
response = requests.post("http://www.baidu.com/", data = data)
传入data数据
对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用data这个参数。
模拟有道翻译

import json

import time

import requests

def youdaoAPI(kw):

    '''

    :param kw: 翻译的内容

    :return:

    '''

    # 请求头

    header = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)

        AppleWebKit/537.36 (KHTML,

        like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    # translate_o 去掉_o

    url = "http://fanyi.youdao.com/translate?

    smartresult=dict&smartresult=rule"

    response = requests.post(url, data=kw, headers=header)

    res = response.content

    tgt = json.loads(res)

    print(tgt["translateResult"])

if __name__ == '__main__':

    kw = input("请输入你想翻译的内容：")

    timet = int(time.time() * 1000)

    data = {

        "i": kw,

        "from": "AUTO",

        "to": "AUTO",

        "smartresult": "dict",

        "client": "fanyideskweb",

        "salt": timet,

        "sign": "f66461b42fe9edb6d88230788fb33cfb",

        "doctype": "json",

        "version": "2.1",

        "keyfrom": "fanyi.web",

        "action	": "FY_BY_REALTIME",

        "typoResult	": "false",

    }

    youdaoAPI(data)

五、显示json文件

# 自带json模块

print(response.json())

运行结果

{'type': 'ZH_CN2EN', 'errorCode': 0,

 'elapsedTime': 1, 'translateResult':

 [[{'src': '长城', 'tgt': 'The Great Wall'}]]}

六、代理（proxies参数）

如果需要使用代理，可以通过为任意请求方法提供proxies参数来配置单个请求：

import requests

# 根据协议类型，选择不同的代理

proxies = {

  "http": "http://12.34.56.79:9527",

  "https": "http://12.34.56.79:9527",

}

response = requests.get("http://www.baidu.com", proxies = proxies)

print response.text

# 带密码代理

httpProxy = {"https": "http://User1:123456@10.3.132.6:808"}

七、web客户端验证

如果是Web客户端验证，需要添加 auth = (账户名, 密码)

import requests

auth=('test', '123456')

response = requests.get('http://192.168.199.107', auth = auth)

print response.text

八、Cookies 和 Session

1、Cookies

如果一个响应中包含了cookie，那么我们可以利用 cookies参数拿到：

import requests

response = requests.get("http://www.baidu.com/")

# 7. 返回CookieJar对象:

cookiejar = response.cookies

# 8. 将CookieJar转为字典：

cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiejar)

print(cookiedict)

运行结果：

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

{'BDORZ': '27315'}

2、Session

在 requests 里，session对象是一个常用的对象，这个对象代表一次用户会话：从客户端浏览器连接服务器开始，到客户端浏览器与服务器断开。

会话能让我们在跨请求时候保存某些参数，比如在同一个 Session 实例发出的所有请求之间保存cookie 。

实现人人网登录：

import requests

# 1. 创建session对象，可以保存Cookie值

ssion = requests.session()

# 2. 处理 headers

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;

 Win64; x64)

AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 3. 需要登录的用户名和密码

data = {"email":"mr_mao_hacker@163.com", "password":"alarmchime"}

# 4. 发送附带用户名和密码的请求，并获取登录后的Cookie值，保存在ssion里

ssion.post("http://www.renren.com/PLogin.do", data = data)

# 5. ssion包含用户登录后的Cookie值，

#可以直接访问那些登录后才可以访问的页面

response = ssion.get("http://www.renren.com/410043129/profile")

# 6. 打印响应内容

print(response.text)

# 将cookie对象转为字典

cookieDict = requests.utils.dict_from_cookiejar(ssion.cookies)

# 保存cookie

with open("session.txt", 'w', encoding='utf-8') as f:

    f.write(str(cookieDict))

    f.flush()

九、SSL证书验证

处理HTTPS请求 SSL证书验证
Requests也可以为HTTPS请求验证SSL证书：

要想检查某个主机的SSL证书，你可以使用 verify 参数（也可以不写）

import requests

response = requests.get("https://www.baidu.com/", verify=True)

# 也可以省略不写

# response = requests.get("https://www.baidu.com/")

print(response.text)

如果SSL证书验证不通过，或者不信任服务器的安全证书，则会报出SSLError，据说 12306 证书是自己做的：
来测试一下：

import requests

response = requests.get("https://www.12306.cn/mormhweb/")

print(response.text)

报错：

SSLError: ("bad handshake: Error([('SSL routines',

'ssl3_get_server_certificate', 'certificate verify failed')],)",)

如果我们想跳过 12306 的证书验证，把 verify 设置为 False 就可以正常请求了。

import requests

url = "https://www.12306.cn/mormhweb/"

response = requests.get(url,verify=False)

print(response.text)

【后记】：如果文章对您有帮助，打赏下呗。微信 1257309054，欢迎交流学习*_*
微信

支付宝

python爬虫中的requests模块的更多相关文章

爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个 ...
Python爬虫学习1: Requests模块的使用
Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档. Requests具有完备的中英文文档, 能完全满 ...
吴裕雄--天生自然python爬虫：使用requests模块的get和post方式抓取中国旅游网站和有道翻译网站翻译内容数据
import requests url = 'http://www.cntour.cn/' strhtml = requests.get(url) print(strhtml.text) URL='h ...
爬虫基础之requests模块
1. 爬虫简介 1.1 概述网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 1.2 爬虫的价值在互 ...
爬虫简介与requests模块
爬虫简介与requests模块一爬虫简介概述网络爬虫是一种按照一定规则,通过网页的链接地址来寻找网页的,从网站某一个页面(通常是首页)开始,读取网页的内容,找到网页中的其他链接地址,然后通过这 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
Python编程中 re正则表达式模块介绍与使用教程
Python编程中 re正则表达式模块介绍与使用教程一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...
python网络爬虫之二requests模块
requests http请求库 requests是基于python内置的urllib3来编写的,它比urllib更加方便,特别是在添加headers, post请求,以及cookies的设置上,处理 ...
爬虫开发5.requests模块的cookie和代理操作
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...

随机推荐

Android 自定义Vie 对勾CheckBox
天在美团点外卖,有一个商品推荐的条目,上面的CheckBox是自定义的,虽然我们大部分都是用图片来自定义样式.但是还是可以自定义View来绘制的,只要画一个圆和对勾即可. 最终效果最终效果.png ...
C面向对象: 升级版本实现：同步逻辑、少量连续失败则增补、多次连续失败则拉长同步周期
// C语言之面向对象+虚事务的抽象 /*********** 进阶练习: (对虚的事物的抽象) 完善部门职责 ***********************/ #include <stdio ...
怎样禁用UEFI boot option中的USB启动，防止U盘WIN PE系统黑入电脑？
Title: Disable all UEFI boot options tblatt 问: Hello, system: Latitude E6530 I want to disable all U ...
arduino中驱动步进电机
参考:https://www.arduino.cn/thread-75936-1-1.html 知识点: 步进电机是一种将电脉冲转化为角位移的执行机构.通俗一点讲:当步进驱动器接收到一个脉冲信号 ...
【题解】[SDOI2010]捉迷藏
题目链接:https://www.luogu.com.cn/problem/P2479 题目大意:求平面$n$个点中,到其它$n-1$个点的曼哈顿距离最大和最小距离之差最小的点,求出这个这个距 ...
【基础】dp系列1
序列双段最大子段和问题 (也许很水但蒟蒻刚刚学dp就来记录一下) 题目链接题意就是求序列中的任意两段的最大子段和最大. 我们先预处理出来前缀和,方便求最大子段和. 对于每一个i都求一遍1到i的最大子 ...
RHSA-2018:1200-重要: patch 安全更新（代码执行）
[root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) 修复命令: 使用root账号登陆She ...
架构师根本不会被语言限制住，php照样可以用领域驱动设计DDD四层架构！
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言你在通往架构师的路上吗? 程序员这个行业就像是在不断的打怪升级,突破每一阶段的瓶颈期 ...
Python+Appium自动化测试(14)-yaml配置Desired capabilities
一,前言在之前的appium自动化测试示例中,我们都是把构造driver实例对象的数据(即Desired Capabilities)写在业务代码里,如下: # -*- coding:utf-8 -* ...
转一个veth的文章
这篇写的很好,清晰明白,保存一下https://www.cnblogs.com/bakari/p/10613710.html

python爬虫中的requests模块