requests进阶

三、requests模块处理cookie相关的请求

1 爬虫中使用cookie

为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求

1.1 爬虫中使用cookie的利弊

带上cookie的好处
- 能够访问登录后的页面
- 能够实现部分反反爬
带上cookie的坏处
- 一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
- 那么上面的问题如何解决 ?使用多个账号

1.2 requests处理cookie的方法

使用requests处理cookie有三种方法：

cookie字符串放在headers中
把cookie字典放传给请求方法的cookies参数接收
使用requests提供的session模块

2、cookie添加在heades中

2.1 headers中cookie的位置

headers中的cookie：
- 使用分号(;)隔开
- 分号两边的类似a=b形式的表示一条cookie
- a=b中，a表示键（name），b表示值（value）
- 在headers中仅仅使用了cookie的name和value

2.2 cookie的具体组成的字段

由于headers中对cookie仅仅使用它的name和value，所以在代码中我们仅仅需要cookie的name和value即可

2.3 在headers中使用cookie

复制浏览器中的cookie到代码中使用

headers = {

"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",

"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

注意：

cookie有过期时间，所以直接复制浏览器中的cookie可能意味着下一程序继续运行的时候需要替换代码中的cookie，对应的我们也可以通过一个程序专门来获取cookie供其他程序使用；当然也有很多网站的cookie过期时间很长，这种情况下，直接复制cookie来使用更加简单

3、使用cookies参数接收字典形式的cookie

cookies的形式：字典

cookies = {"cookie的name":"cookie的value"}

使用方法：

requests.get(url,headers=headers,cookies=cookie_dict)

实例（爬取雪球网）

在网络中找到当前请求的网址点击cookies 将当前的k,value复制到代码中

cookie_dict = {

    'u': '1990923459',

    'bid': '1f110dfd43538f4b8362dfcd21ffbb64_l27g4lfl',

    'xq_is_login': '1',

    'xq_r_token': '5dcbe83944f0b75325f91246061d4a2a01999367'

}

完整代码

import requests

# 携带cookie登录雪球网  抓取完善个人资料页面

headers = {

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36',

    'Referer': 'https://xueqiu.com/u/1990923459',

    'Host': 'xueqiu.com',

}

url = 'https://xueqiu.com/users/connectnew?redirect=/setting/user'

cookie_dict = {

    'u': '1990923459',

    'bid': '1f110dfd43538f4b8362dfcd21ffbb64_l27g4lfl',

    'xq_is_login': '1',

    'xq_r_token': '5dcbe83944f0b75325f91246061d4a2a01999367'

}

res = requests.get(url, headers=headers, cookies=cookie_dict)

with open('雪球网.html', 'w') as f:

    f.write(res.content.decode('UTF-8'))

    print(res.content.decode('UTF-8'))

成果

4、使用requests.session处理cookie

前面使用手动的方式使用cookie，那么有没有更好的方法在requets中处理cookie呢？

requests 提供了一个叫做session类，来实现客户端和服务端的会话保持

会话保持有两个内涵：

保存cookie，下一次请求会带上前一次的cookie
实现和服务端的长连接，加快请求速度

4.1 使用方法

session = requests.session()

response = session.get(url,headers)

session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie

4.2 动手练习：模拟登陆

17k小说网 https://passport.17k.com/
古诗文：https://so.gushiwen.cn
打码平台

图鉴 http://www.ttshitu.com/

超级鹰 http://www.chaojiying.com/

思路分析

准备url地址和请求参数
构造session发送post请求
使用session请求个人主页，观察是否请求成功

5、小结

cookie字符串可以放在headers字典中，键为Cookie，值为cookie字符串
可以把cookie字符串转化为字典，使用请求方法的cookies参数接收
使用requests提供的session模块，能够自动实现cookie的处理，包括请求的时候携带cookie，获取响应的时候保存cookie

四、requests模块的其他方法

1、requests中cookirJar的处理方法

使用request获取的resposne对象，具有cookies属性，能够获取对方服务器设置在本地的cookie，但是如何使用这些cookie呢？

1.1 方法介绍

response.cookies是CookieJar类型
使用requests.utils.dict_from_cookiejar，能够实现把cookiejar对象转化为字典

1.2 方法展示

import requests

url = "http://www.baidu.com"

#发送请求，获取resposne

response = requests.get(url)

print(type(response.cookies))

#使用方法从cookiejar中提取数据  等同于  dict(response.cookies)

cookies = requests.utils.dict_from_cookiejar(response.cookies)

print(cookies)

输出为:

<class 'requests.cookies.RequestsCookieJar'>

{'BDORZ': '27315'}

注意：

在前面的requests的session类中，我们不需要处理cookie的任何细节，如果有需要，我们可以使用上述方法来解决

2、requests处理证书错误

经常我们在网上冲浪时，经常能够看到下面的提示：

出现这个问题的原因是：ssl的证书不安全导致

2.1 代码中发起请求的效果

那么如果在代码中请求会怎么样呢？

import requests

url = "https://www.12306.cn/mormhweb/"

response = requests.get(url)

返回证书错误，如下：

ssl.CertificateError ...

2.2 解决方案

为了在代码中能够正常的请求，我们修改添加一个参数

import requests

url = "https://www.12306.cn/mormhweb/"

response = requests.get(url, verify=False)

3、超时参数的使用

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错

3.1 超时参数使用方法如下：

response = requests.get(url,timeout=3)

通过添加timeout参数，能够保证在3秒钟内返回响应，否则会报错

注意：

这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除

requests进阶的更多相关文章

requests 进阶用法学习（文件上传、cookies设置、代理设置）
一.文件上传 1.模拟网站提交文件提交此图片,图片名称:timg.jpg import requests files={ 'file':open('timg.jpg','rb') } respons ...
小白学 Python 爬虫（18）：Requests 进阶操作
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫中之Requests 模块的进阶
requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个 ...
爬虫基础之requests模块
1. 爬虫简介 1.1 概述网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 1.2 爬虫的价值在互 ...
2 爬虫 requests模块
requests模块 Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,reques ...
小白学 Python 爬虫（20）：Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫基础(一)-----request模块的使用
---------------------------------------------------摆脱穷人思维 <一> : 建立时间价值的概念,减少做那些"时间花的多收 ...
爬虫简介与request模块
一爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网 ...
1、爬虫简介与request模块
一爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网 ...
小白学 Python 爬虫（19）：Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

变量，六大数据类型之字符串、列表、元祖----day02
1.变量:可以改变的量,实际具体指的是内存中的一块存储空间 (1)变量的概念 (2)变量的声明 (3)变量的命名 (4)变量的交换 *常量就是不可改变的量,python当中没有明确定义常量的关键字,所 ...
python开发接口时，使用jsonschema模块对数据进行校验
import jsonschema schema = { "type": "object", # 先声明每个键都是对象 "properties&quo ...
《HelloGitHub》第 95 期
兴趣是最好的老师,HelloGitHub 让你对编程感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣.入门级的开源项目. https://github.com/521xueweiha ...
Dockerfile编写（备份）
1-使用#注释 2-Dockerfile 主体内容分为四部分:基础镜像信息. 维护者信息. 镜像操作指令和容器启动时执行指令简单示例: FROM xxx:latest #基于xxx:late ...
基于Ant Design设计语言的WinForm UI界面库
前言经常在技术群里看到有小伙伴提问:WinForm有什么好看.开源的UI库推荐的吗?,今天大姚给大家分享一款基于Ant Design(使用Ant Design 5.0)设计语言.开源(Apache ...
Android switch语句报错Constant expression required
方案一 :可以用 if来替代如下原因:在Android Studio中使用JDK17以上版本,会出现switch语句报错"Constant expression required&qu ...
时间同步 ntp服务器
目录一. 定义二. 项目要求三. 部署服务端四. 部署客户端一. 定义 #01 简介:ntp全名 network time protocol .NTP服务器可以为其他主机提供时间校对服务 # ...
基于STM32F407MAC与DP83848实现以太网通讯四（STM32F407MAC数据收发与DMA描述符）
上一章实现的MAC数据包的基础收发功能,但是只是简单的操作了ETH外设的收发包函数并没有深入了解其中的原理逻辑,本章结合STM32F40x文档与STM32F4x7_ETH_Driver驱动库了解MAC ...
[VueJsDev] 基础知识 - Button的全局节流
[VueJsDev] 目录列表 https://www.cnblogs.com/pengchenggang/p/17037320.html Button的全局节流 ::: details 目录目录 ...
虚拟机 centos web nodejs服务外网映射
虚拟机 centos web nodejs服务外网映射起因为了不买云服务器也是拼了 1. 安装虚拟机 VMware-Workstation-Lite-15.5.1-15018445精简官方中文安 ...

requests进阶

requests进阶

三、requests模块处理cookie相关的请求

1 爬虫中使用cookie

1.1 爬虫中使用cookie的利弊

1.2 requests处理cookie的方法

2、cookie添加在heades中

2.1 headers中cookie的位置

2.2 cookie的具体组成的字段

2.3 在headers中使用cookie

注意：

3、使用cookies参数接收字典形式的cookie

4、使用requests.session处理cookie

4.1 使用方法

4.2 动手练习：模拟登陆

思路分析

5、小结

四、requests模块的其他方法

1、requests中cookirJar的处理方法

1.1 方法介绍

1.2 方法展示

注意：

2、requests处理证书错误

2.1 代码中发起请求的效果

2.2 解决方案

3、超时参数的使用

3.1 超时参数使用方法如下：

注意：

requests进阶的更多相关文章

随机推荐

热门专题