python爬虫 - python requests网络请求简洁之道

http://blog.csdn.net/pipisorry/article/details/48086195

requests简介

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到。大神kennethreitz的作品，简易明了的HTTP请求操作库, 是urllib2的理想替代品。requests is an elegant HTTP library。API简洁明了，这才是Python开发者喜欢的。

requests跟urllib，urllib2类似，但是python的标准库urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一个简单的功能就需要一大堆代码。

Requests 使用的是 urllib3，因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池，支持使用 cookie 保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化。

requests的功能特性
Requests 完全满足如今网络的需求：
国际化域名和 URLs
Keep-Alive & 连接池
持久的 Cookie 会话
类浏览器式的 SSL 加密认证
基本/摘要式的身份认证
优雅的键/值 Cookies
自动解压
Unicode 编码的响应体
多段文件上传
连接超时
支持 .netrc
适用于 Python 2.6—3.4
线程安全

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}

皮皮Blog

requests和python自带urllib的对比

py2:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib2

gh_url = 'https://api.github.com'

req = urllib2.Request(gh_url)

password_manager = urllib2.HTTPPasswordMgrWithDefaultRealm()
password_manager.add_password(None, gh_url, 'user', 'pass')

auth_manager = urllib2.HTTPBasicAuthHandler(password_manager)
opener = urllib2.build_opener(auth_manager)

urllib2.install_opener(opener)

handler = urllib2.urlopen(req)

print handler.getcode()
print handler.headers.getheader('content-type')

# ------
# 200
# 'application/json'

requests

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests

r = requests.get('https://api.github.com', auth=('user', 'pass'))

print r.status_code
print r.headers['content-type']

# ------
# 200
# 'application/json'

皮皮Blog

[urllib2 vs requests]

requests使用举栗

安装

pip install requests

基本使用

  >>>import requests
  >>> r = requests.get('http://www.****.com')  # 发送请求
  >>> r.status_code  # 返回码 200
  >>> r.headers['content-type']  # 返回头部信息'text/html; charset=utf8'
  >>> r.encoding  # 编码信息'utf-8'
  >>> r.text  #内容部分（如果存在编码问题，也可以使用r.content，见下面的编码问题部分）
  u'<!DOCTYPE html>\n<html xmlns="http://www.***/xhtml"...'...

各种不同HTTP请求

  >>> r = requests.post("http://httpbin.org/post")
  >>> r = requests.put("http://httpbin.org/put")
  >>> r = requests.delete("http://httpbin.org/delete")
  >>> r = requests.head("http://httpbin.org/get")
  >>> r = requests.options("http://httpbin.org/get")

带参数的请求

  >>> payload = {'wd': '张亚楠', 'rn': '100'}
  >>> r = requests.get("http://www.baidu.com/s", params=payload)
  >>> print r.url
  u'http://www.baidu.com/s?rn=100&wd=%E5%BC%A0%E4%BA%9A%E6%A5%A0'

Note: 这里的params可以不用自己进行urlencode的。

获取json结果

  >>>r = requests.get('...'）
  >>>r.json()['data']['country']
  '中国'

>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

Note: 实际内容：{"message":"Hello there, wayfaring stranger......","documentation_url":"https://developer.github.com/v3/..."}

皮皮Blog

requests库的编码问题

Request对象在访问服务器后会返回一个Response对象，这个对象将返回的Http响应字节码保存到content属性中。

但是如果你访问另一个属性text时，会返回一个unicode对象，乱码问题就会常常发成在这里。因为Response对象会通过另一个属性encoding来将字节码编码成unicode，而这个encoding属性居然是responses自己猜出来的。

官方文档：

text
Content of the response, in unicode.
If Response.encoding is None, encoding will be guessed using chardet.
The encoding of the response content is determined based solely on HTTP headers, following RFC 2616 to the letter. If you can take advantage of non-HTTP knowledge to make a better guess at the encoding, you should set r.encoding appropriately before accessing this property.

所以要么你直接使用content(字节码)，要么记得把encoding设置正确。

比如获取一段gbk编码的网页,就需要以下方法才能得到正确的unicode。

import requests
url = "http://xxx.xxx.xxx"

response = requests.get(url)
response.encoding = 'gbk'
print response.text

皮皮Blog

python3 httplib2

不过小编皮皮告诉大家另一种python3的简洁网络请求之道

import httplib2

h = httplib2.Http(".cache")
h.add_credentials('user', 'pass')
r, content = h.request("https://api.github.com", "GET")

print r['status']
print r['content-type']

Note: 也是等同requests的几行代码啊！[urllib2 vs requests]

from:http://blog.csdn.net/pipisorry/article/details/48086195

ref:Requests: HTTP for Humans

requests快速上手

[https://github.com/kennethreitz/requests]

python爬虫 - python requests网络请求简洁之道的更多相关文章

python网络请求简洁之道--python requests简介
#requests中文文档:http://cn.python-requests.org/en/latest/#学习出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
Python爬虫之requests模块(1)
一.引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃 ...
python爬虫值requests模块
- 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在 ...
Python爬虫【requests】request for humans
安装 pip install requests 源码 git clone git://github.com/kennethreitz/requests.git 导入 import requests 发 ...

随机推荐

Docker 工具和示例
pipework Jérôme Petazzoni 编写了一个叫 pipework 的 shell 脚本,可以帮助用户在比较复杂的场景中完成容器的连接. playground Brandon Rhod ...
Docker快速配置指南
下面是一个跟 Docker 网络相关的命令列表. 其中有些命令选项只有在 Docker 服务启动的时候才能配置,而且不能马上生效. -b BRIDGE or --bridge=BRIDGE --指定容 ...
Docker 备份、恢复、迁移数据卷
可以利用数据卷对其中的数据进行进行备份.恢复和迁移. 备份首先使用 --volumes-from 标记来创建一个加载 dbdata 容器卷的容器,并从本地主机挂载当前到容器的 /backup 目录. ...
JS基础速成（二）-BOM（浏览器对象模型）
.t1 { background-color: #ff8080; width: 1100px; height: 40px } 一.BOM(浏览器对象模型) 1.screen对象. console.lo ...
Java内存泄漏分析系列之五：常见的Thread Dump日志案例分析
原文地址:http://www.javatang.com 症状及解决方案下面列出几种常见的症状即对应的解决方案: CPU占用率很高,响应很慢按照<Java内存泄漏分析系列之一:使用jstac ...
Mybatis源码分析--关联表查询及延迟加载原理（二）
在上一篇博客Mybatis源码分析--关联表查询及延迟加载(一)中我们简单介绍了Mybatis的延迟加载的编程,接下来我们通过分析源码来分析一下Mybatis延迟加载的实现原理. 其实简单来说Myba ...
Android仅2步实现滚粗汉堡导航栏效果~ 全新底部导航交互(滑动隐藏)
本文同步自wing的地方酒馆布吉岛大家有木有看这一篇文章,再见,汉堡菜单,我们有了新的 Android 交互设计方案本库下载地址:https://github.com/githubwing/Bye ...
linux下内存的统计和内存泄露类问题的定位
在产品的开发中,通过对当前系统消耗内存总量的统计,可以对产品所需内存总量进行精确的评估,从而选择合适的内存芯片与大小,降低产品的成本.在遇到内存泄露类问题时,经常会对此束手无策,本文通过对proc下进 ...
ejabberd mod_echo 解析
ejabberd mod_echo 解析(金庆的专栏 2016.8)按开发入门的说明,mod_echo是最简单的模块之一.https://docs.ejabberd.im/developer/当然 m ...
Android Multimedia框架总结（十四）Camera框架初识及自定义相机案例
转载请把头部出处链接和尾部二维码一起转载,本文出自逆流的鱼yuiop:http://blog.csdn.net/hejjunlin/article/details/52738492 前言:国庆节告一段 ...

python爬虫 - python requests网络请求简洁之道

requests库的编码问题

python爬虫 - python requests网络请求简洁之道的更多相关文章

随机推荐

热门专题