1 urllib.parse

urllib 库中包含有如下内容

Package contents

error

parse

request

response

robotparser

其中urllib.parse主要是用来解析URL（统一资源定位器）的。

urllib.parse模块定义了一个标准接口，将统一资源定位器URL字符串拆分为诸如addressing scheme、网址、路径等组件；该模块也可以将相对URL（relative URL）转换为给定的基URL（base URL）的绝对URL（absolute URL）。

urllib.parse被设计成在相对统一资源定位器（relative uniform resource locators）上与互联网RFC相匹配，它支持的URL schemes（URL协议）如下：

file、 ftp、gopher、hdl、http、 https、imap、 mailto、 mms、news、nntp、 prospero、rsync、rtsp、 rtspu、 sftp、 shttp、 sip、 sips、 snews、svn、svn+ssh、 telnet、 wais、 ws、wss。

Python中的urllib.parse模块提供的方法可以分为两种：

网址解析（URL parsing）：将URL字符串拆分为其组件

网址引用（URL quoting）：将URL组建组合到URL字符串中

2 网址解析（URL parsing）

2.1 urlparse

urlparse(url, scheme='', allow_fragments=True)

将URL解析成6部分，分别是

协议（scheme）

域名（netloc）

路径（path）

路径参数（params）

查询参数（query）

片段（fragment）

备注：

这 6 项也是ParseResult对象的方法ParseResult(scheme, netloc, path, params, query, fragment)，A 6-tuple that contains components of a parsed URL.

这六项数据描述符（Data descriptors inherited from ParseResult:）

from urllib import parse

urlp = parse.urlparse('https://www.icourse163.org/search.htm?search=%E7%AE%97%E6%B3%95#type=10&orderBy=0&pageIndex=1')
print(urlp)
print(urlp.scheme)
print(urlp.path)

运行

ParseResult(scheme='https', netloc='www.icourse163.org', path='/search.htm', params='', query='search=%E7%AE%97%E6%B3%95', fragment='type=10&orderBy=0&pageIndex=1')
https
/search.htm

2.2 urlunparse

定义： urlunparse(components)

参数：URL的六项元素

功能：再次将解析的URL重新组合在一起。

注意：该部分参数可以是

python学习笔记——urllib库中的parse的更多相关文章

爬虫学习笔记-urllib库
urllib库是python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数:在python3的urllib库中,所有和网络 ...
Python学习笔记-PuLP库（3）线性规划实例
本节以一个实际数学建模案例,讲解 PuLP 求解线性规划问题的建模与编程. 1.问题描述某厂生产甲乙两种饮料,每百箱甲饮料需用原料6千克.工人10名,获利10万元:每百箱乙饮料需用原料5千克.工人2 ...
python学习笔记013——模块中的私有属性
1 私有属性的使用方式在python中,没有类似private之类的关键字来声明私有方法或属性.若要声明其私有属性,语法规则为: 属性前加双下划线,属性后不加(双)下划线,如将属性name私有化,则 ...
[Python学习笔记] turtle库的基本使用
turtle库常用函数引入turtle模块 import turtle turtle的绘图窗体 #setup()设置窗口大小及位置#setup()可省略turtle.setup(width,heig ...
python学习笔记——提取网页中的信息正则表达式re
被用来检索\替换那些符合某个模式(规则)的文本,对于文本过滤或规则匹配,最强大的就是正则表达式,是python爬虫里必不可少的神兵利器. 1 正则表达式re基本规则 [0-9] 任意一个数字,等价\d ...
Python学习笔记020——数据库中的数据类型
1 数值类型数值类型分为有符号signed和无符号unsigned两种. 1.1 整型 int (1)bigint 极大整型(8个字节) 范围 :-2**64 ~ 2**64 - 1 -922337 ...
python学习笔记（excel中处理日期格式）
涉及到处理excel文件中日期格式数据这里自己整理下两种方法代码如下: @classmethod def get_time(cls, table, nrows): testtime = [] f ...
Python学习笔记——Matplot库
https://www.cnblogs.com/laoniubile/p/5893286.html 一.基本指令 import matplotlib.pyplot as plt plt.figure ...
python学习笔记改变字符串中的某一位
a = ' a = list(a) a[2] = ' news = ''.join(a) print news,a 注意不能使用 news = '' news.join(a) 因为news.join只 ...

随机推荐

Jquery Ajax 返回数据类型变成document
下面是我写的一段Jquery Ajax的代码,在chrome下没有问题,在firefox下就算是返回success也提示"系统正忙"; $.ajax({ url: "fa ...
php获取网址
#测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVER['HTTP_HOST']."<br> ...
[Algorithm] How many meeting rooms needed?
Give you set of meetings start time and end time, count how many meeting rooms needed. For example: ...
初探iOS网络开发，数据解析。
通过大众点评平台开发来简单了解一下,oc的网络编程和数据解析(json) 首先我们需要到大大众点评开发者平台申请一个key.http://developer.dianping.com/app/tech ...
linux免密码登录
ssh-copy-id 命令可以把本地主机的公钥复制到远程主机的authorized_keys文件上,ssh-copy-id命令也会给远程主机的用户主目录(home)和~/.ssh, 和~/.ssh ...
dynamic(2) – ExpandoObject的使用
一,ExpandoObject使用场合在传递对象,但是又不想创建一个class或者struct的时候,ExpandoObject就是一个非常好的选择. 假如我们有一个SendMail的函数,功能是发 ...
Asp.Net 之禁用TextBox的记忆功能
IE提供了一个自动完成功能可以记忆我们的输入内容(如登录帐号等),方便下一次快速地录入类似资料.这确实是一个非常友好的功能,在操作时只需用鼠标双击文本框或输入前几个字符,系统会自动列出以前的录入历史供 ...
Jmeter AbstractJavaSamplerClient 案例
1:首先到apache-jmeter-3.0\lib\ext目录下引用以下两个jar包到Java工程里面 ApacheJMeter_core.jar ApacheJMeter_java.jar 2:新 ...
VB控件与引用或部件
序号控件名部件或引用用途 2 ActiveMovie Microsoft ActiveMovie Control 3 ADODB Windows ADO Ext. 2.8 for DLL ...
oracle12c安装报错：PRVF-0002的解决方法
出错信息: 安装oracle12c, ./runInstaller 启动图形化报错 PRVF-0002 : Could not retrieve local nodename. 原因: 找不到主机名的 ...