爬虫第一篇：爬虫详解之urllib.request模块

我将urllib.request 的GET请求和POST请求两种方法做了总结

GET请求

GET请求爬取：

import urllib.request

import urllib.parse

headers = {"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)"}

-------对字符串进行编码的第一种方法---------

baseurl = "http://www.baidu.com/s?wd="

key = input("请输入要搜索的内容:")

url = baseurl + urllib.parse.quote(key)

-------对字符串进行编码的第二种方法---------

baseurl = "http://www.baidu.com/s?"

key = input("请输入要搜索的内容:")

key = urllib.parse.urlencode({"wd":key})

url = baseurl + key

-------获取响应对象的第一种方法-------------

# 创建请求对象

req = urllib.request.Request(url,headers=headers)

# 获取响应对象

res = urllib.request.urlopen(req)

-------获取响应对象的第二种方法-------------

# 直接发请求,并得到响应对象

res = urllib.request.urlopen(url)

# 获取内容

　　html = res.read().decode("utf-8") # 获取字符串
　　# res.read() # 数据类型bytes
　　# res.getcode() : 返回HTTP的响应码

POST请求

Post请求：

import urllib.request

import urllib.parse

import json

key = input("请输入要翻译的内容:")

data = {

        "i":key,

        "from":"AUTO",

        "to":"AUTO",

        "smartresult":"dict",

        "client":"fanyideskweb",

        "salt":"15458120942800",

        "sign":"108feafc7c01c7461a41034463a8df9b",

        "ts":"1545812094280",

        "bv":"363eb5a1de8cfbadd0cd78bd6bd43bee",

        "doctype":"json",

        "version":"2.1",

        "keyfrom":"fanyi.web",

        "action":"FY_BY_REALTIME",

        "typoResult":"false"

    }

# 把data转为bytes数据类型

data = urllib.parse.urlencode(data).encode("utf-8")

# 发请求,获响应,获取内容

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

headers = {"User-Agent":"Mozilla/5.0"}

req = urllib.request.Request\

            (url,data=data,headers=headers)

res = urllib.request.urlopen(req)

html = res.read().decode("utf-8")

# 把json格式的字符串转为python中字典

rDict = json.loads(html)

result = rDict["translateResult"][0][0]["tgt"]

print(result)

总结

从上面我们可以看出，GET请求和POST请求的区别主要是数据的组织形式不同。

GET请求数据是通过url直接传过去， POST请求数据是通过body传过去的

我上面的data数据是直接去网站 F12 拦截请求拿到的

爬虫第一篇：爬虫详解之urllib.request模块的更多相关文章

学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳
学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 JERRY_Z. ~ 2020 / 9 / 25 转载请注明出处!️ 目录学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 ...
爬虫第一篇基本库的使用——urllib
在Python2中有urllib2和urllib3两个库来实现请求的发送,在Pyhon3中则统一为urllib. urilib包含以下4个模块 request:最基本的请求模块,可以用来实现请求的发送 ...
python应用：爬虫框架Scrapy系统学习第一篇——xpath详解
HTML的三大概念:标签.元素以及属性标签:尖括号中的文本例:<head>……</head> 标签通常成对出现元素:标签中的所有内容元素中可包 ...
DevExpress控件使用方法：第一篇 gridControl详解
GridControl (1)层次设计器有五种视图模式,banded gridview多行表头,数据还是一行一组,最靠近数据的表头与数据一一对应:advanced banded gridview多行 ...
Flask第一篇——URL详解
原创 2018-02-14 孟船长自动化测试实战 URL是Uniform Resource Locator的缩写,即统一资源定位符. 一个URL通常由一下几个部分组成: scheme://host: ...
小白进阶之Scrapy第六篇Scrapy-Redis详解（转）
Scrapy-Redis 详解通常我们在一个站站点进行采集的时候,如果是小站的话我们使用scrapy本身就可以满足. 但是如果在面对一些比较大型的站点的时候,单个scrapy就显得力不从心了. 要 ...
《手把手教你》系列技巧篇（三十一）-java+ selenium自动化测试- Actions的相关操作-番外篇（详解教程）
1.简介上一篇中,宏哥说的宏哥在最后提到网站的反爬虫机制,那么宏哥在自己本地做一个网页,没有那个反爬虫的机制,谷歌浏览器是不是就可以验证成功了,宏哥就想验证一下自己想法,于是写了这一篇文章,另外也是 ...
Mysql高手系列 - 第8篇：详解排序和分页(order by & limit)，及存在的坑
这是Mysql系列第8篇. 环境:mysql5.7.25,cmd命令中进行演示. 代码中被[]包含的表示可选,|符号分开的表示可选其一. 本章内容详解排序查询详解limit limit存在的坑分 ...
Mysql高手系列 - 第9篇：详解分组查询，mysql分组有大坑！
这是Mysql系列第9篇. 环境:mysql5.7.25,cmd命令中进行演示. 本篇内容分组查询语法聚合函数单字段分组多字段分组分组前筛选数据分组后筛选数据 where和having的区 ...

随机推荐

linux sublime python
(三)配置python3编译环境 1.点击上部菜单栏Tools->Build System ->new Build System 2.点击之后,会出现一个空的配置文件,此时,往这个空配置文 ...
iOS中三种方式实现登录界面播放视频或gif效果
现在app都做的越来越炫酷,各种动画效果,各种特效很好的提高了用户的体验.很多app在登录界面都使用了动画效果,比如Uber,Keep,QQ等等.这些动画效果基本都是使用gif或者MP4来实现的. 效 ...
条件数(condition number)
首先引入维基上的解释 In the field of numerical analysis, the condition number of a function with respect to an ...
Linux上部署Java应用+Python3环境搭建
给了Linux的测试环境,目前需要install JDK, Tomcat,此处记录下小白的操作过程. 1. 查询Linux发行版本,包括内核信息 (1) Linux查询内核信息 $ uname -a ...
使用GnuPG(PGP)加密信息及数字签名教程_转
所谓加解密就是一方以密钥加密,另一外收到文件后以相对应的密钥解密,从而获取原始文件.数字签名的过程:信息是通过普通未加密方式发送信息给对方的,只是在每条信息后面都会附加一坨字符(名曰:签名)(或信息与 ...
Rancher探秘一：初识Rancher
前言:最近公司需要导入k8s管理,看了一些rancher相关内容,在此做一记录,rancher系列会根据进展不定期更新. Rancher是什么? Rancher是一个开源的企业级容器管理平台.通过Ra ...
LINQ TO SQL:操作有层次关系的对象
对于关系型数据与对象数据之间最大的隔阂就是由标识列连接起来的行(关系型数据)与由集合保存的对象(对象数据)之间的冲突. 例如某个Subject对象(也就是数据库中的Subject表),从Subject ...
RabbitMQ与Redis做队列比较
本文仅针对RabbitMQ与Redis做队列应用时的情况进行对比具体采用什么方式实现,还需要取决于系统的实际需求简要介绍RabbitMQRabbitMQ是实现AMQP(高级消息队列协议)的消息中间件 ...
第8章 Foundation Kit介绍
本文转载至 http://blog.csdn.net/mouyong/article/details/16947321 Objective-C是一门非常精巧实用的语言,目前我们还没有研究完它提供的全 ...
html 自动跳转,meat(http-equiv)标签详解
http-equiv顾名思义,相当于http的文件头作用,它可以向浏览器传回一些有用的信息,以帮助正确和精确地显示网页内容,与之对应的属性值为content,content中的内容其实就是各个参数的变 ...

爬虫第一篇：爬虫详解之urllib.request模块

GET请求

POST请求

爬虫第一篇：爬虫详解之urllib.request模块的更多相关文章

随机推荐

热门专题