python3 爬虫4--解析链接

1.urlparse()

属于urllib.parse

在urlparse世界里面，一个标准的URL链接格式如下

scheme://nrtlooc/path;paramters?query#fragment

所以，一个url='http://www.baidu.com/index.html;user?id=5#comment'

我们使用urlparse的话，就可以被分成6个部分

（scheme='http',netloc='www.baidu.com',path='index.html'paramters='user'.query='id=5',fragment='comment'）

具体操作如下：

res=urlparse('https://www.baidu.com/baidu?wd=query&tn=monline_dg&ie=utf-8')

print(res)

urlparse还有带参数的是使用方法

res=urlparse(urlstring,scheme=' ',allow_fragment=True)

scheme是默认的协议，如果urlstring没有带协议，则使用scheme中的协议，若是有，则仍然使用urlstring中协议

allow_fragment即是否忽略fragment,如果是False，fragment就被解析为path、paramenters或者query中的一部分

2，urlunparse()

属于urllib.parse

正如其名字所示，ulrunparse()是urlparse()的逆过程

例如：data=['http','www.baidu.com','index.html','user','a=6','comment']

print(urlunparse(data))

这样就完成了urlstring的构造

3urlsplit()

from urllib.parse import urlsplit

与urlparse类似，但urlsplict把urlstirng分割成5个部分，其中少了paramters

res=urlsplict('http://www.baidu.com/index.html;user?id=5#comment')

print(res)

4urlunsplit()

用法与urlunparse()类似

5urljoin()

属于urllib.parse

urljoin()也是一种生成urlstring的方式,这种生成方法是提供两个链接，分别是base_url,和新链接，分析base_url中的scheme,netloc,path这三个部分，然后对新链接缺失的部分进行补充，新链接里面若是有，则不补充，不提换，最后返回新链接，举个例子

print(urljoin('http://www.baidu.com'，‘wd=query&tn=monline_dg&ie=utf-8‘))

返回结果是：

http://www.baidu.com/wd=query&tn=monline_dg&ie=utf-8
6urlencode()

from urllib,parse import urlencode

可以将字典类型转换为url参数举例来说

param={'name':'lihua','age':'23'}

base_url='http://www.baidu.com'

url=base_url+urlencode(param)

print(url)

7parse_qs()

parse_qs()是parse_encode()的逆过程（为什么名字的区别这么大，我也是不得其解）

from urllib.parse import parse_qs

query='wd=query&tn=monline_dg&ie=utf-8'

print(parse_qs(query))

输出结果是：{'tn': ['monline_dg'], 'wd': ['query'], 'ie': ['utf-8']}
这样就转换称为字典类型了

8pars_qsl()

from urllib.pase import parse_qsl：将参数转换成为元组组成的列表

query='wd=query&tn=monline_dg&ie=utf-8'

print(parse_qsl(query))

输出结果：[('wd', 'query'), ('tn', 'monline_dg'), ('ie', 'utf-8')]

9quote

quote()方法可以将内容转换为URL编码格式，有时候URL带中文可能导致乱码，这样就需要quote

from urllib。parse import quote

keyword='美女'

url='https://www.baidu.com/s?wd='+quote(keyword)

print(url)

输出结果：https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3

10unquote()

对URL进行解码

from urllib.parse import unquote

url='https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3'

print(unquote(url))

输出结果：https://www.baidu.com/s?wd=美女
就可以实现解码

python3 爬虫4--解析链接的更多相关文章

python爬虫之解析链接
解析链接 1. urlparse() & urlunparse() urlparse() 是对url链接识别和分段的,API用法如下: urllib.parse.urlparse(urlstr ...
python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题
当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...
python3爬虫（4）各种网站视频下载方法
python3爬虫(4)各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够 ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
爬虫Larbin解析(一)——Larbin配置与使用
介绍功能:网络爬虫开发语言:c++ 开发者:Sébastien Ailleret(法国) 特点:只抓取网页,高效(一个简单的larbin的爬虫可以每天获取500万的网页) 安装安装平台:Ubun ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
Python3爬虫（十八） Scrapy框架（二）
对Scrapy框架(一)的补充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy优点: 提供了内置的 HTTP 缓存 ,以加速本地开发 . ...

随机推荐

树莓派GPIO开发（二）RGB模块-PWM调节
配置环境系统:Raspbian11(官方64位) 设备:树莓派CM4 一.PWM简单介绍全称:Pulse-width modulation,脉冲宽度调制,简单的数模转换方法 1.基本原理脉冲宽度 ...
HTML5/CSS3/JS笔记
HTML笔记: 前言: HTML无非就是围绕标签.属性.属性值这三个词展开的. (标签也可以叫做元素, 元素的内容是开始标签与结束标签之间的内容) *常规标签 <标签属性1="属性值 ...
[Java]Java入门笔记（三）：类、对象和方法
七.类.对象和方法类和对象的关系类定义了对象的本质: 类(class)是对象(object)的模板,而对象(object)是类的一个实例(instance). 使多个对象的指向相同: Studen ...
小甲鱼二十一讲：lambda表达式！！！！
0: lambda x:x*3 lambad x,y=3:x*y 1:def findodd(x): if x%2 == 0 return None else: return x 2:几乎不用 ...
windev中使用DateFile和Query作为表格数据源的一个重要区别
表格可以使用DateFile(数据表)和Query(查询表)作为数据源,在列表页面中,因为表格一般都设置为不可编辑,所以这两者在表现使用上,区别都不大.尽管如此,我们还是需要清晰的知道,这两者本质上的 ...
selenium+python自动化104-如何获取隐藏元素text文本
前言首先 selenium 是可以定位到隐藏元素的,但是 selenium 不能跟隐藏元素交互,也就是隐藏元素element不能使用element.click()方法. 隐藏元素element.te ...
Excel：如何为某一列写相同的数而不是累加的数
按住CTRL,双击单元格右下角的加号,则该行以下的行都是这个单元格的值不按CTRL,双击单元格右下角的加号,该行以下的行都是每次加一的数
c# 自定义控件-提示框(弹框)
分带取消按钮和不带取消按钮的调用方法: frmMessageBox frm = new frmMessageBox("提示", "数据连接失败,请重试!", ...
qt（二）
主程序入口: #include <iostream> #include <QApplication> #include "MainWindow.h" int ...
RT-Thread学习2 —— 内存管理学习记录
RT-Thread学习2 -- 内存管理学习记录1 小内存管理算法(mem.c) 1. 小内存管理法: 小内存管理算法是一个简单的内存分配算法.初始时,它是一块大的内存.当需要分配内存块时,将从这个大 ...

python3 爬虫4--解析链接

python3 爬虫4--解析链接的更多相关文章

随机推荐

热门专题