Python爬虫之urllib.parse

Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数。

解析url

解析url（ urlparse() ）

urlparse() 函数可以将 URL 解析成 ParseResult 对象。对象中包含了六个元素，分别为：

协议（scheme）

域名（netloc）

路径（path）

路径参数（params）

查询参数（query）

片段（fragment）

from urllib.parse import urlparse

url='https://blog.csdn.net/xc_zhou/article/details/80907101'

parsed_result=urlparse(url)

print('parsed_result 包含了',len(parsed_result),'个元素')

print(parsed_result)

print('scheme  :', parsed_result.scheme)

print('netloc  :', parsed_result.netloc)

print('path    :', parsed_result.path)

print('params  :', parsed_result.params)

print('query   :', parsed_result.query)

print('fragment:', parsed_result.fragment)

print('username:', parsed_result.username)

print('password:', parsed_result.password)

print('hostname:', parsed_result.hostname)

print('port    :', parsed_result.port)

结果为：

parsed_result 包含了 6 个元素

ParseResult(scheme='http', netloc='user:pwd@domain:80', path='/path', params='params', query='query=queryarg', fragment='fragment')

scheme  : http

netloc  : user:pwd@domain:80

path    : /path

params  : params

query   : query=queryarg

fragment: fragment

username: user

password: pwd

hostname: domain

port    : 80

解析url（ urlsplit() ）

urlsplit() 函数也能对 URL 进行拆分，所不同的是， urlsplit() 并不会把路径参数(params) 从路径(path) 中分离出来。
当 URL 中路径部分包含多个参数时，使用 urlparse() 解析是有问题的

这时可以使用 urlsplit() 来解析：

from urllib.parse import urlsplit

url='http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment'

split_result=urlsplit(url)

print(split_result)

print('split.path    :', split_result.path)

# SplitResult 没有 params 属性

结果为：

SplitResult(scheme='http', netloc='user:pwd@domain:80', path='/path1;params1/path2;params2', query='query=queryarg', fragment='fragment')

split.path    : /path1;params1/path2;params2

解析url（urldefrag()）

from urllib.parse import urldefrag

url = 'http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment'

d = urldefrag(url)

print(d)

print('url     :', d.url)

print('fragment:', d.fragment)

结果为：

DefragResult(url='http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg', fragment='fragment')

url     : http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg

fragment: fragment

组建URL

组建url（urlunparse()）

urlunparse()接收一个列表的参数，而且列表的长度是有要求的，是必须六个参数以上，否则抛出异常。

from urllib.parse import urlunparse

url_compos = ('http', 'user:pwd@domain:80', '/path1;params1/path2', 'params2', 'query=queryarg', 'fragment')

print(urlunparse(url_compos))

结果为：

http://user:pwd@domain:80/path1;params1/path2;params2?query=queryarg#fragment

组建url（urljoin()）

urljoin()将两个字符串拼接成url，

from urllib.parse import urljoin

# 连接两个参数的url, 将第二个参数中缺的部分用第一个参数的补齐,如果第二个有完整的路径，则以第二个为主

print(urljoin('https://movie.douban.com/', 'index'))

print(urljoin('https://movie.douban.com/', 'https://accounts.douban.com/login'))

结果为：

https://movie.douban.com/index

https://accounts.douban.com/login

查询参数的构造与解析

使用 urlencode() 函数可以将一个 dict 转换成合法的查询参数：

from urllib.parse import urlencode

query_args = {

    'name': 'dark sun',

    'country': '中国'

}

query_args = urlencode(query_args)

print(query_args)

结果为：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

使用 parse_qs() 来将查询参数解析成 dict。

from urllib.parse import urlencode

from urllib.parse import parse_qs

query_args = {

    'name': 'dark sun',

    'country': '中国'

}

query_args = urlencode(query_args)

print(query_args)

print(parse_qs(query_args))

结果为：

name=dark+sun&country=%E4%B8%AD%E5%9B%BD

{'name': ['dark sun'], 'country': ['中国']}

quote()与unquote()

quoteI()对特殊字符进行转义unquote()则相反。

from urllib.parse import quote

from urllib.parse import unquote

test1 = quote('中文')

print(test1)

test2 = unquote(test1)

print(test2)

结果为：

%E4%B8%AD%E6%96%87

中文

Python爬虫之urllib.parse详解的更多相关文章

Python爬虫系列-Urllib库详解
Urllib库详解 Python内置的Http请求库: * urllib.request 请求模块 * urllib.error 异常处理模块 * urllib.parse url解析模块 * url ...
python爬虫利器Selenium使用详解
简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...
Python爬虫：requests 库详解，cookie操作与实战
原文第三方库 requests是基于urllib编写的.比urllib库强大,非常适合爬虫的编写. 安装: pip install requests 简单的爬百度首页的例子: response.te ...
python爬虫框架scrapy实例详解
生成项目scrapy提供一个工具来生成项目,生成的项目中预置了一些文件,用户需要在这些文件中添加自己的代码.打开命令行,执行:scrapy st... 生成项目 scrapy提供一个工具来生成项目,生 ...
Python爬虫系列-Requests库详解
Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求. 实例引入 import requests response = requests.get( ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
python爬虫之urllib库（三）
python爬虫之urllib库(三) urllib库访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
python爬虫之urllib库（一）
python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...

随机推荐

AtCoder AGC002F Leftmost Ball (DP、组合计数)
题目链接: https://atcoder.jp/contests/agc002/tasks/agc002_f 题解: 讲一下官方题解的做法: 就是求那个图(官方题解里的)的拓扑序个数,设\(dp[i ...
[51nod1383&1048]整数分解为2的幂：DP
算法一分析 \(f[x]=f[x-1]+f[x/2] \times [x \equiv 0 \mod 2],O(n)\) 代码 n=int(input()) f=[0]*(n+5) f[0]=1 m ...
mysql语句错误
select * from order where id = 1; 同学问我这句话有什么问题,乍一看真看不出毛病,后来发现order是mysql关键字,这样写是不对的,所以要加一个双引号才会更好一点 ...
linux上的常用的系统自带命令
wikipedia 发现的分类,发现还有好多没用过.. Unix command-line interface programs and shell builtins File system ca ...
Python 基础知识总结
strptime() 根据指定的格式将一个时间字符串解析为一个时间元组. time.strptime(time_str[,format]) 返回strcut_time对象 #time_str 是时间字 ...
PADS LAYOUT的一般流程
1.概述本文档的目的在于说明使用PADS的印制板设计软件PowerPCB进行印制板设计的流程和一些注意事项,为一个工作组的设计人员提供设计规范,方便设计人员之间进行交流和相互检查. 2.设计 ...
【C++ STL 优先队列priority_queue】
https://www.cnblogs.com/fzuljz/p/6171963.html
FreeBSD上安装Cassandra 3.10
哈哈,你居然点进来了,来吧,一起吐槽FreeBSD啊,装了一上午Cassandra 3.10都没有装成功, 终于,鄙人一条 shutdown -p now 结束了FreeBSD,默默打开了CentOS ...
GitHub - 解决 GitHub Page 404
带有下划线的文件报 404 解决:在仓库文件夹根目录添加.nojekyll文件参见: Bypassing Jekyll on GitHub Pages - The GitHub Blog How t ...
eclipse添加约束文件
DTD 类型约束文件 1. Window->Preferences->XML->XML Catalog->User Specified Entries窗口中,选择Add ...

Python爬虫之urllib.parse详解

解析url

解析url（ urlparse() ）

解析url（ urlsplit() ）

解析url（urldefrag()）

组建URL

组建url（urlunparse()）

组建url（urljoin()）

查询参数的构造与解析

Python爬虫之urllib.parse详解的更多相关文章

随机推荐

热门专题