1from urllib.parse import urlparse, urlunparse, urlsplit, urlunsplit, urljoin, urlencode, parse_qs, parse_qsl, quote,unquote

1.urlparse() 解析url

1result = urlparse('https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9094304700265862330%22%7D&n_type=0&p_from=1')
2print(type(result), result)
3print(result.scheme)
4print(result[0])

2.urlunparse() 构造url 长度最长为6

1data = ['https', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']
2print(urlunparse(data))

3.urlsplit() 把参数合并到path

1result = urlsplit('https://www.baidu.com/index.html;user?a=6#comment')
2print(result)
3print(result.scheme)
4print(result[0])

4.urlunsplit() 组成完整的链接

1data = ['https', 'www.baidu.com', 'index.html', 'a=6', 'comment']
2print(urlunsplit(data))

5.urljoin() 可以实现链接的解析，拼合，与生成

1print(urljoin("https://www.baidu.com/", 'FAQ.html'))
2print(urljoin('http://www.baiduu.com', 'https://www.gxj.com/FAQ.html'))

6.urlencode() 字典转化为请求参数

1params = {
2    'name': 'germey',
3    'age': 22
4}
5baseurl = 'http://www.baiduu.com?'
6url = baseurl + urlencode(params)
7print('--urlencode--%s' %url)

7.parse_qs() 转化为字典

1query = 'name=germey&age=22'
2print('--parse_qs---%s' %parse_qs(query))

8.parse_qsl() 参数转化为元祖组成的列表

1query = 'name=germey&age=22'
2print('--parse_qsl--%s' %parse_qsl(query))

9.quote() 将中文转化为英文

1keyword = '我爱你'
2url = 'http://www.baiduu.com' + quote(keyword)
3print('--quote()--%s'%url)

10.unquote() 将英文转化为中文

1keyword ='%E6%88%91%E7%88%B1%E4%BD%A0'
2url = 'http://www.baiduu.com' + unquote(keyword)
3print('--quote()--%s'%url)

urllib库:解析链接的更多相关文章

urllib.parse解析链接
1. urlparse() 解析链接,注意,返回值比3多一个params的属性 from urllib.parse import urlparse result = urlparse('http:// ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
（爬虫）urllib库
一.爬虫简介什么是爬虫?通俗来讲爬虫就是爬取网页数据的程序. 要了解爬虫,还需要了解HTTP协议和HTTPS协议:HTTP协议是超文本传输协议,是一种发布和接收HTML页面的传输协议:HTTPS协议 ...
爬虫之urllib库
一.urllib库简介简介 Urllib是Python内置的HTTP请求库.其主要作用就是可以通过代码模拟浏览器发送请求.它包含四个模块: urllib.request :请求模块 urllib.e ...
一起学爬虫——urllib库常用方法用法总结
1.读取cookies import http.cookiejar as cj,urllib.request as request cookie = cj.CookieJar() handler = ...
爬取w3c课程—Urllib库使用
爬虫原理浏览器获取网页内容的步骤:浏览器提交请求.下载网页代码.解析成页面,爬虫要做的就是: 模拟浏览器发送请求:通过HTTP库向目标站点发起请求Request,请求可以包含额外的header等信息 ...
Python爬虫入门（3-4）：Urllib库的高级用法
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CS ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...

随机推荐

5.反生成url
# url(r"^all/(?P<article_type_id>\d+)$", home.index,name="index" ), # 在htm ...
SQL中Charindex和Oracle中对应的函数Instr
转:http://blog.csdn.net/zhuyu19911016520/article/details/8568640 sql :charindex('字符串',字段)>0 charin ...
IE ActiveObject
ActiveObject只能用于基于IE内核的浏览器需要添加信任站点并设置对ActiveObject的启用问题: 1.用javascript 创建ActiveX对象时出现:Automation ...
hdu 2553 八皇后问题基础
题意:给你一个n*n的棋盘,要求放n个皇后: <span style="font-size:18px;">#include <iostream> #incl ...
[LOJ3109][TJOI2019]甲苯先生的线段树：DP
分析首先,请允许我 orz HN队长zsy.链接我们发现树上的链有两种类,一类是直上直下的,一类不是直上直下的(废话).并且,如果我们确定了左侧和右侧的链的长度和整条链上所有节点的编号之和,那么这 ...
UMG里没有"Prefab"怎么办？
大家知道在Unity里做UI,利用Prefab是少不了的,但是在UE4里如何做呢? 这是实际工作中遇到的问题,我Google关键词“UMG Prefab","UMG resuabl ...
BZOJ3875--骑士游戏（SPFA处理带后效性的动态规划）
3875: [Ahoi2014]骑士游戏 Time Limit: 30 Sec Memory Limit: 256 MBSubmit: 181 Solved: 91[Submit][Status] ...
windows管理员权限激活
第一步:计算机-右键--管理--选择用户,选择administrator用户--取消勾选:账户禁用第二步:alt+ctrl+delete,快捷键调出资源管理器--点击切换用户第三步:显示出现adm ...
hdfs、zookeepeer之HA模式
HA简介 1.所谓HA,即高可用(high available) 2.消除单点故障,避免集群瘫痪,hdfs中namenode保存了整个集群的元数据,如果namenode所在机器宕机,则整个集群瘫痪,H ...
利用python的图像分块与拼接
import os import matplotlib.pyplot as plt import cv2 import numpy as np def divide_img(img_path, img ...

urllib库:解析链接

1.urlparse() 解析url

2.urlunparse() 构造url 长度最长为6

3.urlsplit() 把参数合并到path

4.urlunsplit() 组成完整的链接

5.urljoin() 可以实现链接的解析，拼合，与生成

6.urlencode() 字典转化为请求参数

7.parse_qs() 转化为字典

8.parse_qsl() 参数转化为元祖组成的列表

9.quote() 将中文转化为英文

10.unquote() 将英文转化为中文

urllib库:解析链接的更多相关文章

随机推荐

热门专题