python爬虫三大解析库之XPath解析库通俗易懂详讲
@
使用XPath解析库
1.简介
XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。
官网:https://www.w3.org/TR/xpath/
准备工作:需要安装lxml库。
2.常用规则
表达式 | 功能 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取直接子孙节点 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
3.etree模块解析网页简介
etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:
直接读取网页代码进行解析:
from lxml import etree
text = '''
HTML文本
'''
# 将HTML文本转化为可以用etree解析的对象,
html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码
读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):
from lxml import etree
html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码
用tostring()方法即可输出修正后的HTML代码。
4.选取所有节点,子节点和父节点
(1)选取所有节点
一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:
a = html.xpath('//*') # 选取所有的节点
b = html.xpath('//a') # 选取所有的a节点,是一个例子
这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。
(2)选取子节点
选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:
c = html.xpath('//li/a') # 选取li节点的直接a子节点
d = html.xpath('//li//a') # 选取li节点的所有a子节点
(3)选取父节点
获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。
同理,如果没有父节点,就会报错,例子如下:
e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点
f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点
g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点
5.属性匹配,文本获取和属性多值匹配
(1)属性匹配
在选取节点的时候,可以用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子如下:
s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点
要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。
(2)文本获取
我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。
(3)属性多值匹配
要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,即@属性名和属性值,例子如下:
# 源代码中为<li class="ming1 ming2">
s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点
s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点
6.属性获取和多属性匹配
(1)属性获取
属性获取直接用@获取即可,例子如下:
s = html.xpath('//li/a/@href]') # 获取所有li节点下的直接a子节点的href属性
(2)多属性匹配
有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子如下:
# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性
two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')
7.按次序选择
有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:
方法 | 功能 |
---|---|
[n] | 选取第n个节点,序号是以1开头的 |
[last()] | 选取最后一个节点 |
[position() < n] | 选取位置小于n的节点,这里可以用算术运算符进行选择 |
[last() - n] | 选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个 |
8.节点轴选择
由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:
节点轴 | 选择节点 |
---|---|
ancestor:: * | 获取所有祖先节点 |
ancestor::条件 | 获取指定条件的祖先节点 |
attribute:: * | 获取节点的所有属性 |
attribute::属性名 | 获取节点的指定属性 |
child:: * | 获取所有子节点 |
child::条件 | 获取指定条件的子节点 |
descendent:: * | 获取所有的子孙节点 |
descendent::条件 | 获取指定条件的子孙节点 |
following:: * | 获取当前节点之后的所有节点 |
following:: *[n] | 获取当前节点之后的第n个节点 |
following-sibing:: * | 获取当前节点之后的所有同级节点 |
following-sibing::条件 | 获取当前节点之后指定条件的所有同级节点 |
9.开发者工具查看xpath选择器路径
用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。
python爬虫三大解析库之XPath解析库通俗易懂详讲的更多相关文章
- 小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(20):Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- Python爬虫入门(二)之Requests库
Python爬虫入门(二)之Requests库 我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
- python爬虫之数据的三种解析方式
一.正则解析 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...
- python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
- python开发遇到的坑(1)xpath解析ValueError: Unicode strings with encoding declaration are not supported
Traceback (most recent call last): File "/Users/*******.py", line 37, in <module> Bt ...
- 小白学 Python 爬虫(19):Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- Python爬虫小白入门(三)BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
- python爬虫知识点总结(六)BeautifulSoup库详解
官方学习文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 一.什么时BeautifulSoup? 答:灵活又方便的网页解析库,处 ...
随机推荐
- MySQL 在 Windows 下安装教程、避坑指南
MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,2008 年被 SUN 公司收购,后 SUN 公司又被 Oracle 公司收购. 一.下载 MySQL 官网 https:/ ...
- ETCD:TLS
原文地址:TLS etcd支持用于客户端到服务器以及对等方(服务器到服务器/集群)通信的自动TLS以及通过客户端证书的身份验证. 要启动并运行,首先要获得一个成员的CA证书和签名密钥对. 建议为集群中 ...
- sql server判断表存在
在创建表.更改表结构.删除表或对表进行什么操作之前,一个比较严谨的做法是先判断该表是否已经存在. 在SQL Server中判断一个表是否存在,有两个方法,下面以diso表为例. 方法1 from sy ...
- ubuntu16搭建文件服务器
这篇记录,如何在ubuntu16 安装 FastDFS 文件服务器,详细步骤 环境依赖 apt-get install make apt-get install unzip apt-get insta ...
- golang中,new和make的区别
在golang中,make和new都是分配内存的,但是它们之间还是有些区别的,只有理解了它们之间的不同,才能在合适的场合使用. 简单来说,new只是分配内存,不初始化内存: 而make即分配又初始化内 ...
- ABP入门教程14 - 更新多语言
点这里进入ABP入门教程目录 设置语种 新增语种 数据库操作 打开多语言表AbpLanguages,添加一条记录. 程序操作 在基础设施层(即JD.CRS.EntityFrameworkCore)的\ ...
- tomcat7控制台日志中文乱码
windows电脑 idea启动Tomcat调试程序时,Tomcat控制台输出里,中文是乱码. 解决办法: 修改Tomcat/bin/catalina.bat文件: set JAVA_OPTS= 的内 ...
- Linux下使用 github+hexo 搭建个人博客06-next主题接入数据统计
之前说了 next 主题的优化和接入评论系统.让我们完成了自己所需的页面风格和排版,也可让访问用户在每篇博文评论,完成博主和访问用户的交互. 本章我们继续讲解其他重要功能. 既然是一个网站,那么我们就 ...
- Linux uevent分析、用户接收uevent以及mdev分析
关键词:uevent.netlink.ADD/REMOVE/CHANGE.uevent_helper.hotplug.usermode helper.mdev.mdev.conf等等. 本文从三方面了 ...
- IT宝塔安装,Centos系统
宝塔安装地址:https://www.bt.cn/btcode.html 本文链接地址:https://www.cnblogs.com/wannengachao/p/12036716.html 版权声 ...