urllib.parse：很底层，但是是一个处理url路径的好模块

介绍

urllib.parse是为urllib包下面的一个模块，urllib的其它模块完全可以使用requests替代。但是urlli.parse我们是有必要了解的，因为该模块下面有很多操作url路径的方法

urlparse：拆分url

from urllib import parse

url = "https://www.baidu.com/s?wd=python"

print(parse.urlparse(url))  # ParseResult(scheme='https', netloc='www.baidu.com', path='/s', params='', query='wd=python', fragment='')

"""

scheme:协议，比如http，https等等。

netloc:域名，这里是www.baidu.com

path:路径，跟在域名后面

params:参数

query:查询条件

fragment:锚点，用于直接定位页面的下拉位置，跳转到网页的指定位置

"""

scheme, netloc, path, params, query, fragment = parse.urlparse(url)

print(f"协议:{scheme}")

print(f"域名:{netloc}")

print(f"路径:{path}")

print(f"参数:{params}")

print(f"查询参数:{query}")

print(f"锚点:{fragment}")

"""

协议:https

域名:www.baidu.com

路径:/s

参数:

查询参数:wd=python

锚点:

"""

# 关于urlparse里面还可以传入一个scheme

# 这个参数只有在传入的url没有scheme的时候，才会起作用

url = "www.baidu.com/s?wd=python"

print(parse.urlparse(url))  # ParseResult(scheme='', netloc='', path='www.baidu.com/s', params='', query='wd=python', fragment='')

print(parse.urlparse(url), scheme="哈哈哈")  # ParseResult(scheme='哈哈哈', netloc='', path='www.baidu.com/s', params='', query='wd=python', fragment='')

urlunparse：生成url

# urlparse是将url拆分

# urlunparse是将url组合，参数则是一个元祖，里面是urlparse拆分之后的各个部分

url_params = ("https", "www.abc.com", "/info/ad2sads", "",  "name=saya&age=16", "splendid")

print(parse.urlunparse(url_params))  # https://www.abc.com/info/ad2sads?name=saya&age=16#splendid

urljoin：组合url

# 有时候我们获取的url是不包含域名的

# 比如爬虫获取图片，本来的路径是http://www.xxx.com/picture/aaa.jpg

# 但是返回的是/pic/aaa.jpg，于是我们就需要进行组合

netloc = "http://www.xxx.com"

path = "/picture/aaa.jpg"  # 开头的/无论有没有，都能组合成功

print(parse.urljoin(netloc, path))  # http://www.xxx.com/picture/aaa.jpg

# 如果本来就是完整路径呢？

netloc = "http://www.xxx.com"

path = "http://www.xxx.com/picture/aaa.jpg"

print(parse.urljoin(netloc, path))  # http://www.xxx.com/picture/aaa.jpg

# 如果不是完整路径，会进行拼接，如果是完整路径，那么就结果就是原来本身的完整路径

netloc = "http://www.kkk.com"

path = "http://www.xxx.com/picture/aaa.jpg"

print(parse.urljoin(netloc, path))  # http://www.xxx.com/picture/aaa.jpg

# 两者域名不一样的话，有限以path自身的路径为准

# 只有path中不存在域名的时候，才会使用netloc

netloc = "http://www.kkk.com"

path = "/picture/aaa.jpg"

print(parse.urljoin(netloc, path))  # http://www.kkk.com/picture/aaa.jpg

urlencode：参数转换

# 我们在requests中调用get方法传参的时候，直接指定一个字典即可

# 说明requests会自动帮我们转化，那么我们也可以调用urlencode手动转化

netloc = "http://www.query.com"

path = "/search"

params = {"name": "mashiro", "age": 16}

print(parse.urlencode(params))  # ame=mashiro&age=16

print(parse.urljoin(netloc, path) + "?" + parse.urlencode(params))  # http://www.query.com/search?name=mashiro&age=16

quote：中文转换url编码

# 当我们在url中传入中文的时候，会以编码的形式

url = "https://www.baidu.com/s?wd=古明地觉"

print(parse.quote(url))  # https%3A//www.baidu.com/s%3Fwd%3D%E5%8F%A4%E6%98%8E%E5%9C%B0%E8%A7%89

unquote：url编码解码成中文

print(parse.unquote("https%3A//www.baidu.com/s%3Fwd%3D%E5%8F%A4%E6%98%8E%E5%9C%B0%E8%A7%89"))  # https://www.baidu.com/s?wd=古明地觉

urllib.parse：很底层，但是是一个处理url路径的好模块的更多相关文章

urllib.parse.urlencode
urllib.request.urlopen(url,data,timeout) 其中如果data被赋值,则请求的方式就会由get转为post,而post需要提供一些待处理的数据. 这些待处理的数据需 ...
python3中的urllib.parse的常用方法
将URL按一定的格式进行拆分使用 urllib.parse.urlparse将url分为6个部分,返回一个包含6个字符串项目的元组:协议.位置.路径.参数.查询.片段参照官方地址:https:// ...
urllib.parse.parse_qsl 的一个小问题
最近在使用urllib时发现的一个问题,记录一下. 首先请分别执行下面这两句代码: 1."你好".encode("utf8").decode("gbk ...
我与python3擦肩而过（三）—— 我去。。又是编码问题——urllib.parse.unquote
记得初学python时就学的爬虫,经常遇到编码问题(其实在python3里面编码问题已经很少了...),用requests库就挺方便解决这些问题的.近来有共同学习python的程序员写了个电子书网站, ...
urllib.parse
1 url分解 import urllib.parse result = urllib.parse.urlparse('http://www.baidu.com') print(result) 结果为 ...
Python 的 urllib.parse 库解析 URL
Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url urlparse() 函数可以将 URL 解析成 ParseResult 对象.对象中包含了六 ...
URL组成成分及各部分作用简介及urllib.parse / uri
URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path / [;parameters][?query]#fragment urllib. ...
(转)Python3 模块3之 Urllib之 urllib.parse、urllib.robotparser
原文:https://blog.csdn.net/qq_36148847/article/details/79153738 https://blog.csdn.net/zly412934578/art ...
urllib.parse.urldefrag(url)的解释
引自https://www.cnblogs.com/ublue/articles/4471210.html 1.URL hash(片段标识符) 任一带#的URL称为片段URL(通常称为URL hash ...

随机推荐

matlab中如何给一个矩阵中的某几个特定位置赋值
用sub2ind >> a=zeros(5); i = [2;3;4]; j = [1;4;2]; >> a(sub2ind(size(a), i, j))=1 a = 0 0 ...
Linux (Ubuntu)上面安装maven
1 首先检查linux上是否有maven mvn -v 或者mvn -version 如果没有安装,提示如下: ubuntu@ip----:~$ mvn -v The program 'mvn' ca ...
JavaScript抽象语法树英文对照
type:"Program" //顶级对象类型 type:"Identifier" // 标识符 type:"FuncationDeclaration ...
树莓派(Linux)添加USB外接硬盘
1.显示系统的硬盘设备以及分区 sudo fdisk -l 显示设备名,例如/dev/sda1 2.树莓派默认不支持NTFS文件系统,如果需要支持则要安装相应的软件包 sudo apt-get ins ...
20190925 - macOS 的包管理工具
众所周知,macOS 的包管理工具有 MacPorts 和 Homebrew,后者似乎更受欢迎,但前者但包数量更多. 喜欢手冲咖啡,看到 brew 这个词有好感,但可能部分由于网络的问题,部分因为 b ...
一篇文章搞懂android存储目录结构
前言前两天因为开发一个app更新的功能,我将从服务器下载的apk文件放在了内部存储目录(测试手机为小米,路径为:data/user/0/packagename/files)下面,然后安装的时候一直安 ...
C++返回对象和返回引用
我们发现,在C++中,有些成员函数返回的是对象,而有些函数返回的又是引用. 返回对象和返回引用的最主要的区别就是函数原型和函数头. Car run(const Car &) //返回对 ...
关于Java新手开发配置各种环境可能会遇到的的坑
一.软件的安装虽然国内的软件都支持中文目录安装,部分国外软件也支持,但是作为一名合格的程序开发者,必须做到以下几点 Windows下开发软件的安装目录和环境变量中永远不要包含中文字符,包括汉字[]. ...
prometheus+grafana监控Linux和kubernetes的例子
1.安装和配置prometheus tar zxvf prometheus-.linux-amd64.tar.gz -C /usr/local/ ln -sv /usr/local/prometheu ...
算法巩固的第一天-java冒泡排序算法
自媒体萌新一枚,不对的地方各路大神可以指点指点!个人理解: 冒泡排序算法<插入排序算法<快速排序算法 /** * 冒泡排序算法 * @author sj * */ public class ...

urllib.parse：很底层，但是是一个处理url路径的好模块

介绍

urlparse：拆分url

urlunparse：生成url

urljoin：组合url

urlencode：参数转换

quote：中文转换url编码

unquote：url编码解码成中文

urllib.parse：很底层，但是是一个处理url路径的好模块的更多相关文章

随机推荐

热门专题