资料：

W3C标准：https://www.w3.org/TR/xpath/all/

W3School：https://www.w3school.com.cn/xpath/index.asp

菜鸟教程：https://www.runoob.com/xpath/xpath-tutorial.html

xpath教程：http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html

XPATH在线测试：http://www.bejson.com/testtools/xpath/

简介

XPath 使用路径表达式在 XML 文档中进行导航

XPath 包含一个标准函数库

XPath 是 XSLT 中的主要元素

XPath 是一个 W3C 标准

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。

XPath 节点

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

<bookstore> （文档节点）

<author>J K. Rowling</author> （元素节点）

lang="en" （属性节点）

基本值

称原子值，Atomic value

基本值是无父或无子的节点。

项目（Item）

项目是基本值或者节点。

节点关系

父（Parent）

每个元素以及属性都有一个父。

子（Children）

元素节点可有零个、一个或多个子。

同胞（Sibling）

拥有相同的父的节点

先辈（Ancestor）

某节点的父、父的父，等等。

后代（Descendant）

某个节点的子，子的子，等等。

XPath 语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式	描述
`nodename`	选取此节点的所有子节点。
`/`	从根节点选取。
`//`	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
`.`	选取当前节点。
`..`	选取当前节点的父节点。
`@`	选取属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

注：XPath的下标是从1开始的！

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
`/bookstore/book[1]`	选取属于 bookstore 子元素的第一个 book 元素。
`/bookstore/book[last()]`	选取属于 bookstore 子元素的最后一个 book 元素。
`/bookstore/book[last()-1]`	选取属于 bookstore 子元素的倒数第二个 book 元素。
`/bookstore/book[position()<3]`	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
`//title[@lang]`	选取所有拥有名为 lang 的属性的 title 元素。
`//title[@lang='eng']`	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
`/bookstore/book[price>35.00]`	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
`/bookstore/book[price>35.00]/title`	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
`*`	匹配任何元素节点。
`@*`	匹配任何属性节点。
`node()`	匹配任何类型的节点。

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

XPath 轴

轴可定义相对于当前节点的节点集。

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。
child	选取当前节点的所有子元素。
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
following	选取文档中当前节点的结束标签之后的所有节点。
namespace	选取当前节点的所有命名空间节点。
parent	选取当前节点的父节点。
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。

位置路径表达式

位置路径可以是绝对的，也可以是相对的。

绝对路径起始于正斜杠( / )，而相对路径不会这样。在两种情况中，位置路径均包括一个或多个步，每个步均被斜杠分割：

每个步均根据当前节点集之中的节点来进行计算。

步（step）包括：

轴（axis）定义所选节点与当前节点之间的树关系
节点测试（node-test）识别某个轴内部的节点
零个或者更多谓语（predicate）更深入地提炼所选的节点集

步的语法：轴名称::节点测试[谓语]

例子：

例子	结果
`child::book`	选取所有属于当前节点的子元素的 book 节点。
`attribute::lang`	选取当前节点的 lang 属性。
`child::*`	选取当前节点的所有子元素。
`attribute::*`	选取当前节点的所有属性。
`child::text()`	选取当前节点的所有文本子节点。
`child::node()`	选取当前节点的所有子节点。
`descendant::book`	选取当前节点的所有 book 后代。
`ancestor::book`	选择当前节点的所有 book 先辈。
`ancestor-or-self::book`	选取当前节点的所有 book 先辈以及当前节点（如果此节点是 book 节点）
`child::*/child::price`	选取当前节点的所有 price 孙节点。

XPath 运算符

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

XPath 函数

见：https://www.w3school.com.cn/xpath/xpath_functions.asp

Python爬虫：数据解析之 xpath的更多相关文章

python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...

随机推荐

矩阵快速幂+二分 poj3233
#include <iostream> #include <cstdio> #include <string> #include <cstring> # ...
修正_typora文档复制到博客图片失效
开始今天开始尝试使用 Typora 写markdown 然后复制到博客园,不过会有一个问题那就是 typroa 插入的图片都是本地的,md文档复制到博客园之后,图片都失效了通过百度,有工具可以直 ...
Android开发实战——记账本（2）
开发日志(2)——Bean目录以及数据库首先编写一些自己生成的数据进行测试,看一下能否显示在模拟器上.那前提就是先写出bean目录,这和之前学的Javaweb步骤差不多.bean目录有三个变量事件. ...
LED Decorative Light Manufacturer Introduction: LED Metal Table Light
Nowadays, when many people choose the desk light, they are worried that it will not be used for a lo ...
party lamps(dfs优化+规律枚举)
Problem description: To brighten up the gala dinner of the IOI'98 we have a set of N coloured lamps ...
ThinkPHP中的时间自动填充无法获取时间
protected $_auto = array( array('addTime','time','1','function'), ); addTime在数据库里的的类型必须为int ...
webpack 打包增加版本信息
What do we need? 笔者目的是在vue项目打包后的 dist/index.html 文件中写入本次打包git用户.最后一次git提交信息,这样做的目的是便于线上项目的管理和防止同事之间的 ...
linx下跑多个tomcat
1.修改server.xml文件 <Server port="8005" shutdown="SHUTDOWN"> <Connector po ...
概率dp （背包+概率）背包的多一点
题意:XX想抢劫银行,当危险率低于P的时候才能行动,现在给出每家银行的金钱mi和危险率pi,求最多能获得多少金钱: 题解:危险率是P,那么安全率就是1-P,那么XX抢劫的所有银行的安全率之积就不能小于 ...
mui 把内容复制到剪切板
function copyShareUrl(){ mui.plusReady(function(){ //复制链接到剪切板 var copy_content = ""; //判断是 ...

Python爬虫：数据解析 之 xpath

简介