python利用requests库模拟post请求时json的使用

　　我们都见识过requests库在静态网页的爬取上展现的威力，我们日常见得最多的为get和post请求，他们最大的区别在于安全性上：

1、GET是通过URL方式请求，可以直接看到，明文传输。

2、POST是通过请求header请求，可以开发者工具或者抓包可以看到，同样也是明文的。 3.GET请求会保存在浏览器历史纪录中，还可能会保存在Web的日志中。

　　两者用法上也有显著差异（援引自知乎）：

1、GET用于从服务器端获取数据，包括静态资源(HTML|JS|CSS|Image等等)、动态数据展示(列表数据、详情数据等等)。

2、POST用于向服务器提交数据，比如增删改数据，提交一个表单新建一个用户、或修改一个用户等。

对于Post请求，我们可以通过浏览器开发者工具或者其他外部工具来进行抓包，得到请求的URL、请求头（request headers）以及请求的表单data信息，这三样恰恰是我们用requests模拟post请求时需要的，典型的写法如下：

　　response=requests.post(url=url,headers=headers,data=data_search)

　　由于post请求很多时候是配合Ajax（异步加载）技术一起使用的，我们抓包时，可以直接选择XHR（XmlHttpRequest）-ajax的一种对象，帮助我们滤掉其他的一些html、css、js类文件，如下图所示（截取自Chrome）：

双击点开，就可以在页面右边的Headers页下看到General、Response Headers、Request Headers、Form Data几个模块，

其中General模块能看到请求的方法和请求的URL以及服务器返回的状态码（200（成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。）

而Response Headers部分，可以看到缓存控制、服务器类型、返回内容格式、有效期等参数（笔者截图所示，返回的为json文件）：

Request Header模块是非常重要的，可以有效地将我们的爬取行为模拟成浏览器行为，应对常规的服务器反爬机制：

其中Content-Type、Cookie以及User-Agent字段较为重要，需要我们构造出来（其他字段大多数时候，不是必须）

由于Cookie字段记录了用户的登陆信息，每次都不同，且同一个cookie存在一定有效期，当我们结合Selenium来组合爬取页面信息时，可以通过selenium完成网页的登陆校验，然后利用selenium提取出cookie，再转换为浏览器能识别的cookie格式，通常代码如下所示：

cookies = driver.get_cookies() #利用selenium原生方法得到cookies

ret=''

for cookie in cookies:

    cookie_name=cookie['name']

    cookie_value=cookie['value']

    ret=ret+cookie_name+'='+cookie_value+';' #ret即为最终的cookie，各cookie以“;”相隔开

紧接着，我们需要构造headers部分（即请求头），我们挑重点的几个字段进行构造：

headers={

    'Host':'**********.com',

    'Referer':'http://****************/check/index.do',

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',

    'X-Requested-With':'XMLHttpRequest',

    'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',

    'Cookie':ret  #需要登陆后捕获cookie并调用

}

我们在网页中点击“确定”按钮，网页则会异步加载，后台发出post请求，取到json文件并渲染到网页表单中，比如我们根据需求填写了部分字段（这些就是我们post请求的data信息），然后观察后台的form data信息：

后台Form data 捕获到的data参数如图：

类似于字典格式，其中condition键对应的value较为复杂——列表中包含字典，字典中还有部分函数，其中字符串中既有单引号又有双引号交错。属于关键信息，page决定了网页的翻页在第几页，而rows则表示每次请求的数据限定的最大行数。

本例中问题的关键是，如何把想要的信息（譬如来源于excel配置文件）传递到condition字段对应的值内，确保Form data信息灵活可配置，大抵用法如下：

data_search={

    'page':1,

    'rows':15,

    'condition':

    """[\

        {"column":"BPM_DEF_NAME","exp":"like","value":""},\

        {"column":"DELETE_STATUS","exp":"=","value":0},\

        {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":">=","value":"YYYY-MM-DD"},\

        {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":"<=","value":"YYYY-MM-DD"},\

        {"column":"CHECK_TYPE","exp":"like","value":"2"},\

        {"column":"LOCKED_STATUS","exp":"=","value":0},\

        {"column":"DELETE_STATUS","orderType":"default","orderKey":"","direction":"ASC"}\

    ]""",   #考虑到该字段已经有单引号、双引号，所以只能用三引号来包住这部分代表字符串

    'additionalParams':'{}'

}

data_search_condition=json.loads(data_search['condition'])    #将字符串转为列表，方便更新列表（列表中每个元素都是一个单个字典）元素

#刷新字典

data_search_condition[0]['value']=businessName

data_search_condition[2]['value']=str(startDate)

data_search_condition[3]['value']=str(endDate)

data_search['condition']=json.dumps(data_search_condition)  #将列表重新转回字符串，作为data_search字典中键“condition”对应的“value”，然后更新字典

上述代码中，data_search其实为字典对象，其键“condition”对应的值（三引号包住部分）为字符串，本质是json格式，我们如何对这部分动态传参呢？

这里需要用到python json包中常用的loads和dumps方法：

1、json.loads()是将json格式对象，转化Python可识别的字典对象。解码python json格式，可以用这个模块的json.loads()函数的解析方法。

2、json.dumps()是将一个Python数据类型列表进行json格式的编码解析，可以将一个list列表对象，进行了json格式的编码转换。

3、json.dump和json.dumps很不同，json.dump主要用来json文件读写，和json.load函数配合使用。

上面实例中，就是将data_search['condition']（json，字符串）转换为列表，然后根据列表定位到底层的每个dict字典，最后根据dict[Key]=value的方法进行更新（传参），更新完之后的列表，再通过json.dumps反向转回字符串，这样整个data_search字典中参数就可以灵活配置，通过外部引入了。

剩下的工作就很简单，交给强大的Requests包完成就好，示例代码如下：

def get_page(data_search,url): #定义页面解析的函数，返回值为json格式

    try:

        response=requests.post(url=url,headers=headers,data=data_search)

        if response.status_code==200:

            return response.json()

    except requests.ConnectionError as e:

        print('Error',e.args)

我们还可以把json格式内容存到本地（data.json)格式文件或者txt文本，并按照特定缩进（indent=4)进行规则排版，格式化内容，此时要用到json.dump()方法，示例代码如下:

for pageNum in range(1,1000):

    data_search['page']=str(pageNum)

    pageContent=get_page(data_search=data_search,url=url)

    with open('data.json','w',encoding="utf-8") as json_file:

        json.dump(pageContent,json_file,ensure_ascii = False,indent=4)

    if pageContent==None:

        print("无符合条件的单据！")

        time.sleep(3)

        sys.exit(0)

格式化后的json看上去直观不少：

　　最后感慨一句：爬虫是门技术活，任何一个技术理解地不够透彻，碰到复杂的问题，可能就要花上很长时间去试错，譬如本文示例中的字典、json包几个功能的使用，稍微出错，就无法请求到对的数据！

PS：特别强调一点，有的时候requests.post()方法中data字段不填或者填写有误，服务器有时也会返回200状态码以及相应内容。这种情况下，我们一定要与手工操作得到的json文件进行对比，看看我们的传参（多测试几组不同的参数，看返回json内容是否不同）是否真的起到作用，以免空欢喜一场！

python利用requests库模拟post请求时json的使用的更多相关文章

用python的Requests库模拟http请求
一.先了解几个重要的http请求头或响应头信息 Request Headers: Host: 描述请求将被发送的目的地,包括,且仅仅包括域名和端口号. Origin: 说明请求从哪里发起的,包括,且仅 ...
使用Python的requests库作接口测试——请求对象与响应对象
任何时候调用requests.*()操作接口时,我们都在做两件事情: 1.构建一个Request对象,该对象被发送到服务器去请求或查询一些资源: 2.一旦requests得到一个从服务器返回的响应,就 ...
『居善地』接口测试 — 5、使用Requests库发送POST请求
目录 1.请求正文是application/x-www-form-urlencoded 2.请求正文是raw (1)json格式文本(application/json) (2)xml格式文本(text ...
【python爬虫】用requests库模拟登陆人人网
说明:以前是selenium登陆取cookie的方法比较复杂,改用这个 """ 用requests库模拟登陆人人网 """ import r ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...
『居善地』接口测试 — 4、Requests库发送GET请求
目录 1.使用Requests库发送带参数的GET请求 2.查看GET请求的内容 3.带请求头.参数的Get请求 Requests库GET请求是使用HTTP协议中的GET请求方式对目标网站发起请求. ...
【转】使用Python的Requests库进行web接口测试
原文地址:使用Python的Requests库进行web接口测试 1.Requests简介 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写, ...
requests库的post请求
requests库的post请求 #coding:utf-8 import requests import json class Trans(object): def __init__(self, w ...

随机推荐

[DIV+CSS] set the screen capture Part 1 （div截取屏幕）
使用下面的代码来获取屏幕.用DIV加CSS 来控制. 使用mousemove来获取移动的时候DIV的变化, 效果图如下: 使用5个DIV来组成实现截图目的第一部分,现在只是实现了选择的第一部分. HT ...
SSL双向认证和SSL单向认证的流程和区别
refs: SSL双向认证和SSL单向认证的区别https://www.jianshu.com/p/fb5fe0165ef2 图解 https 单向认证和双向认证!https://cloud.tenc ...
Javascript 精简语法介绍
1. 取整同时转成数值型: '10.567890'|0 结果: 10 '10.567890'^0 结果: 10 -2.23456789|0 结果: -2 ~~-2.23456789 结果: -2 2. ...
Redis哈希表总结
本文及后续文章,Redis版本均是v3.2.8 在文章<Redis 数据结构之dict><Redis 数据结构之dict(2)>中,从代码层面做了简单理解.总感觉思路的不够条理 ...
iOS12系统应用发送普通邮实现发送
iOS12系统应用发送普通邮实现发送构建好邮件以后,可以发送该邮件.此时需要使用mailComposeDelegate属性,该属性用来设置委托,其语法形式如下: unowned(unsafe) va ...
vscode断点调试本地客户端文件
一.安装chrome,安装vscode,打开vscode编辑器,安装插件Debugger for Chrome 二.新建文件 1.目录结构 . ├── index.html ├── index.js ...
16重新安装HA0.63
2018-02-24 14:17:46 https://home-assistant.io/docs/installation/raspberry-pi/首先安装2017-11-29-raspbian ...
16进制转化8进制---map
#include "stdio.h" #include "string.h" #include "string" #include &quo ...
java保留小数后两位的四种写法
package com.btzh.mis.house.utils; import java.math.BigDecimal;import java.math.RoundingMode;import j ...
css3 属性
1.css 面试题: css 组成: css 样式组成规则:选择器+声明块声明块:css属性+css属性值 2.css 解析规则: 从右往左 3.文字超出省略号显示: 1.元素不是内联块 2.ov ...

python利用requests库模拟post请求时json的使用

python利用requests库模拟post请求时json的使用的更多相关文章

随机推荐

热门专题