requests库

虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。

安装和文档地址：

利用pip可以非常方便的安装：

pip install requests

中文文档：http://docs.python-requests.org/zh_CN/latest/index.html
github地址：https://github.com/requests/requests

发送GET请求：

最简单的发送get请求就是通过requests.get来调用：
```
response = requests.get("http://www.baidu.com/")
```

添加headers和查询参数：
如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用 params 参数。相关示例代码如下：

 import requests

 kw = {'wd':'中国'}

 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

 # params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()

 response = requests.get("http://www.baidu.com/s", params = kw, headers = headers)

 # 查看响应内容，response.text 返回的是Unicode格式的数据

 print(response.text)

 # 查看响应内容，response.content返回的字节流数据

 print(response.content)

 # 查看完整url地址

 print(response.url)

 # 查看响应头部字符编码

 print(response.encoding)

 # 查看响应码

 print(response.status_code)

发送POST请求：

最基本的POST请求可以使用post方法：

response = requests.post("http://www.baidu.com/",data=data)

传入data数据：
这时候就不要再使用urlencode进行编码了，直接传入一个字典进去就可以了。比如请求拉勾网的数据的代码：

 import requests

 url = "https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0"

 headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

     'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='

 }

 data = {

     'first': 'true',

     'pn': 1,

     'kd': 'python'

 }

 resp = requests.post(url,headers=headers,data=data)

 # 如果是json数据，直接可以调用json方法

 print(resp.json())

使用代理：

使用requests添加代理也非常简单，只要在请求的方法中（比如get或者post）传递proxies参数就可以了。示例代码如下：

import requests

url = "http://httpbin.org/get"

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',

}

proxy = {

    'http': '171.14.209.180:27829'

}

resp = requests.get(url,headers=headers,proxies=proxy)

with open('xx.html','w',encoding='utf-8') as fp:

    fp.write(resp.text)

cookie：

如果在一个响应中包含了cookie，那么可以利用cookies属性拿到这个返回的cookie值：

import requests

url = "http://www.renren.com/PLogin.do"

data = {"email":"970138074@qq.com",'password':"pythonspider"}

resp = requests.get('http://www.baidu.com/')

print(resp.cookies)

print(resp.cookies.get_dict())

session：

之前使用urllib库，是可以使用opener发送多个请求，多个请求之间是可以共享cookie的。那么如果使用requests，也要达到共享cookie的目的，那么可以使用requests库给我们提供的session对象。注意，这里的session不是web开发中的那个session，这个地方只是一个会话的对象而已。还是以登录人人网为例，使用requests来实现。示例代码如下：

import requests

url = "http://www.renren.com/PLogin.do"

data = {"email":"970138074@qq.com",'password':"pythonspider"}

headers = {

    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"

}

# 登录

session = requests.session()

session.post(url,data=data,headers=headers)

# 访问大鹏个人中心

resp = session.get('http://www.renren.com/880151247/profile')

print(resp.text)

处理不信任的SSL证书：

对于那些已经被信任的SSL整数的网站，比如https://www.baidu.com/，那么使用requests直接就可以正常的返回响应。示例代码如下：

resp = requests.get('http://www.12306.cn/mormhweb/',verify=False)

print(resp.content.decode('utf-8'))

编写Scrapy-Redis分布式爬虫：

要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了：

将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider；或者是从scrapy.CrawlSpider变成scrapy_redis.spiders.RedisCrawlSpider。
将爬虫中的start_urls删掉。增加一个redis_key="xxx"。这个redis_key是为了以后在redis中控制爬虫启动的。爬虫的第一个url，就是在redis中通过这个发送出去的。
在配置文件中增加如下配置：

    # Scrapy-Redis相关配置

    # 确保request存储到redis中

    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 确保所有爬虫共享相同的去重指纹

    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

    # 设置redis为item pipeline

    ITEM_PIPELINES = {

        'scrapy_redis.pipelines.RedisPipeline': 300

    }

    # 在redis中保持scrapy-redis用到的队列，不会清理redis中的队列，从而可以实现暂停和恢复的功能。

    SCHEDULER_PERSIST = True

    # 设置连接redis信息

    REDIS_HOST = '127.0.0.1'

    REDIS_PORT = 6379

运行爬虫：
1. 在爬虫服务器上。进入爬虫文件所在的路径，然后输入命令：scrapy runspider [爬虫名字]。
2. 在Redis服务器上，推入一个开始的url链接：redis-cli> lpush [redis_key] start_url开始爬取。

Python爬虫之requests库的使用的更多相关文章

Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
Python爬虫：requests 库详解，cookie操作与实战
原文第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
【Python爬虫】Requests库的基本使用
Requests库的基本使用阅读目录基本的GET请求带参数的GET请求解析Json 获取二进制数据添加headers 基本的POST请求 response属性文件上传获取cookie 会 ...
python爬虫(1)requests库
在pycharm中安装requests库的一种方法首先找到设置搜索然后安装,蓝色代表已经安装 requests库中的get请求与HTTP协议相对应,requests库也有七种请求方式. 获取ur ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
Python爬虫之Requests库的基本使用
import requests response = requests.get('http://www.baidu.com/') print(type(response)) print(respons ...
Python爬虫系列-Requests库详解
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get( ...
python下载安装requests库
一.python下载安装requests库 1.到git下载源码zip源码https://github.com/requests/requests 2.解压到python目录下: 3.“win+R”进 ...

随机推荐

Java 常见对象 03
常见对象·StringBuffer类 StringBuffer类概述 * A:StringBuffer类概述 * 通过 JDk 提供的API,查看StringBuffer类的说明 * 线程安全的可变字 ...
Sentinel高级
Sentinel高级 sentinel和springCloud整合减少开发的复杂度,对大部分的主流框架,例如:Web Servlet.Dubbo.Spring Cloud.gRPC.Spring W ...
订单退款&重复支付需求疑问点归纳整理
更新历史记录: 更新内容更新人更新时间新建 Young 2020.12.10 16:45 更新产品疑问解答 Young 2020.12.11 10:14 更新退款权益终止时间 Young 2 ...
python之commands和subprocess入门介绍(可执行shell命令的模块)
一.commands模块 1.介绍当我们使用Python进行编码的时候,但是又想运行一些shell命令,去创建文件夹.移动文件等等操作时,我们可以使用一些Python库去执行shell命令. com ...
A New Stone Game POJ - 1740
题目链接:https://vjudge.net/problem/POJ-1740#author=0 题意:有n堆石子,每次你可以选一堆拿走任意数量的石子,而且你还可以选择从这一堆剩下石子中取任意数量石 ...
使用docker搭建sonarqube
sonarqube是一款代码质量检查工具,使用sonar扫描我们写过的代码,可以有助于检查出代码的bug.规范性和健壮性,有助于提高我们的代码质量. 一.安装docker 安装完成之后,命令行输入 d ...
日志文件删除shell脚本
大日志文件切割shell脚本 #!/bin/bash # --------------------------------------------------------------------- # ...
高精度减法（c++）
高精度减法每当要进行精度较高的运算时,就要用到高精度. 下图是各个类型的数值范围: 如果想不起各个类型占多少字节,可以采用下面的方法: printf("%d %d",sizeof ...
[源码解析] 并行分布式任务队列 Celery 之 Task是什么
[源码解析] 并行分布式任务队列 Celery 之 Task是什么目录 [源码解析] 并行分布式任务队列 Celery 之 Task是什么 0x00 摘要 0x01 思考出发点 0x02 示例代码 ...
快速排序（QuickSort）Java版
快速排序快速排序是对冒泡排序的一种改进. 它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排 ...

Python爬虫之requests库的使用