python 爬虫 urllib模块发起post请求

urllib模块发起的POST请求

案例：爬取百度翻译的翻译结果

1.通过浏览器捉包工具，找到POST请求的url

针对ajax页面请求的所对应url获取，需要用到浏览器的捉包工具。查看百度翻译针对某个字条发送ajax请求，所对应的url

点击clear按钮可以把抓包工具，所抓到请求清空

然后填上翻译字条发送ajax请求，红色框住的都是发送的ajax请求

抓包工具All按钮代表显示抓到的所有请求，包括GET、POST请求、基于ajax的POST请求

XHR代表只显示抓到的基于ajax的POST请求

哪个才是我们所要的基于ajax的POST请求，这个POST请求是携带翻译字条的苹果请求参数

再看看这个POST请求对应的请求URL ，这个URL是我们要请求的URL

发起POST请求之前，要处理POST请求携带的参数 3步流程:

一、将POST请求封装到字典

二、使用parse模块中的urlencode(返回值类型是字符串类型)进行编码处理

三、将步骤二的编码结果转换成byte类型

import urllib.request

import urllib.parse

# 1.指定url

url = 'https://fanyi.baidu.com/sug'

# 发起POST请求之前，要处理POST请求携带的参数 流程:

# 一、将POST请求封装到字典

data = {

    # 将POST请求所有携带参数放到字典中

    'kw':'苹果',

}

# 二、使用parse模块中的urlencode(返回值类型是字符串类型)进行编码处理

data = urllib.parse.urlencode(data)

# 三、将步骤二的编码结果转换成byte类型

data = data.encode()

'''2. 发起POST请求:urlopen函数的data参数表示的就是经过处理之后的

POST请求携带的参数

'''

response = urllib.request.urlopen(url=url,data=data)

data = response.read()

print(data)

把拿到的翻译结果去json在线格式校验(在线JSON校验格式化工具(Be JSON)),

点击格式化校验和unicode转中文

python 爬虫 urllib模块发起post请求的更多相关文章

python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
python 爬虫 urllib模块目录
python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块反爬虫机制UA python 爬虫 urllib模块发起post ...
python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
python 爬虫 urllib模块反爬虫机制UA
方法: 使用urlencode函数 urllib.request.urlopen() import urllib.request import urllib.parse url = 'https:// ...
Python爬虫urllib模块
Python爬虫练习(urllib模块) 关注公众号"轻松学编程"了解更多. 1.获取百度首页数据流程:a.设置请求地址 b.设置请求时间 c.获取响应(对响应进行解码) ''' ...
python 爬虫 urllib模块介绍
一.urllib库概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urll ...
python 爬虫 urllib模块 url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦’的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...

随机推荐

python爬虫添加请求头
request import requests headers = { # 'Accept': 'application/json, text/javascript, */*; q=0.01', # ...
关于java代理（静态代理和动态代理）
参考文章:http://kuangbaoxu.iteye.com/blog/193240
HTML+JS中网页跳转的写法
1.html中使用meta中跳转,通过meta可以设置跳转时间和页面 <head>  <meta http-equiv=" ...
gcd表（欧几里得定理）
题目:http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid=797 gcd表时间限制:1000 ms | 内存限制:65535 KB 难度:3 ...
Jmeter函数参数
1.time时间函数 ${__time(,)} 1450056496991 //无格式化参数,返回当前毫秒时间 ${__time(/1000,)} //返回当前时间为秒 ${__time(yyyyMM ...
SSRF和XSS-filter_var(), preg_match() 和 parse_url()绕过学习
0x01:url标准的灵活性导致绕过filter_var与parse_url进行ssrf filter_var() (PHP 5 >= 5.2.0, PHP 7) filter_var — 使用 ...
Ubuntu16.04安装nginx(并启用SSL)
一.安装环境介绍需要预先安装gcc,通常ubuntu默认自带,所以默认已经有这个环境了,后续步骤默认是使用root账户进行的二.下载及安装nginx相关组件 1.进入任意目录,我选用的是通常选用的 ...
【转】python 输入一个时间，获取这个时间的下一秒
原文:https://blog.csdn.net/l_d_56/article/details/84832198 输入一个时间,获取这个时间的下一秒 PS:下面代码使用于 python 2.7 tim ...
Java-JVM 自定义类加载器
一.sun.misc.Launcher (ExtClassLoader 与 AppClassLoader 的创建) public Launcher() { Launcher.ExtClassLoade ...
leetcode常见算法与数据结构汇总
leetcode刷题之后,很多问题老是记忆不深刻,因此特意开此帖: 一.对做过题目的总结: 二.对一些方法精妙未能领会透彻的代码汇总,进行时常学习: 三.总结面试笔试常见题目,并讨论最优解法及各种解法 ...

python 爬虫 urllib模块 发起post请求

案例：爬取百度翻译的翻译结果

1.通过浏览器捉包工具，找到POST请求的url

抓包工具All按钮代表 显示抓到的所有请求 ，包括GET、POST请求 、基于ajax的POST请求

XHR代表 只显示抓到的基于ajax的POST请求

哪个才是我们所要的基于ajax的POST请求，这个POST请求是携带翻译字条的苹果请求参数

再看看这个POST请求 对应的请求URL ，这个URL是我们要请求的URL

python 爬虫 urllib模块 发起post请求的更多相关文章

随机推荐

热门专题

python 爬虫 urllib模块发起post请求

抓包工具All按钮代表显示抓到的所有请求，包括GET、POST请求、基于ajax的POST请求

XHR代表只显示抓到的基于ajax的POST请求

再看看这个POST请求对应的请求URL ，这个URL是我们要请求的URL

python 爬虫 urllib模块发起post请求的更多相关文章