xpath选择器使用

简单说，xpath就是选择XML文件中节点的方法。

所谓节点（node），就是XML文件的最小构成单位，一共分成7种。

- element（元素节点）
- attribute（属性节点）
- text （文本节点）
- namespace （名称空间节点）
- processing-instruction （处理命令节点）
- comment （注释节点）
- root （根节点）

xpath可以用来选择这7种节点。不过，下面的笔记只涉及最常用的第一种element（元素节点），因此可以将下文中的节点和元素视为同义词。

一、xpath表达式的基本格式

xpath通过"路径表达式"（Path Expression）来选择节点。在形式上，"路径表达式"与传统的文件系统非常类似。

# 斜杠（/）作为路径内部的分割符。

# 同一个节点有绝对路径和相对路径两种写法。

# 绝对路径（absolute path）必须用"/"起首，后面紧跟根节点，比如/step/step/...。

# 相对路径（relative path）则是除了绝对路径以外的其他写法，比如 step/step，也就是不使用"/"起首。

# "."表示当前节点。

# ".."表示当前节点的父节点

二、选择节点的基本规则

- nodename（节点名称）：表示选择该节点的所有子节点

- "/"：表示选择根节点

- "//"：表示选择任意位置的某个节点

- "@"：表示选择某个属性

三、选择节点的实例

先看一个XML实例文档。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
    <title lang="eng">Harry Potter</title>
    <price>29.99</price>
  </book>

<book>
    <title lang="eng">Learning XML</title>
    <price>39.95</price>
  </book>

</bookstore>

[例1]

bookstore ：选取 bookstore 元素的所有子节点。

[例2]

/bookstore ：选取根节点bookstore，这是绝对路径写法。

[例3]

bookstore/book ：选取所有属于 bookstore 的子元素的 book元素，这是相对路径写法。

[例4]

//book ：选择所有 book 子元素，而不管它们在文档中的位置。

[例5]

bookstore//book ：选择所有属于 bookstore 元素的后代的 book 元素，而不管它们位于 bookstore 之下的什么位置。

[例6]

//@lang ：选取所有名为 lang 的属性。

四、xpath的谓语条件（Predicate）

所谓"谓语条件"，就是对路径表达式的附加条件。

所有的条件，都写在方括号"[]"中，表示对节点进行进一步的筛选。

[例7]

/bookstore/book[1] ：表示选择bookstore的第一个book子元素。

[例8]

/bookstore/book[last()] ：表示选择bookstore的最后一个book子元素。

[例9]

/bookstore/book[last()-1] ：表示选择bookstore的倒数第二个book子元素。

[例10]

/bookstore/book[position()<3] ：表示选择bookstore的前两个book子元素。

[例11]

//title[@lang] ：表示选择所有具有lang属性的title节点。

[例12]

//title[@lang='eng'] ：表示选择所有lang属性的值等于"eng"的title节点。

[例13]

/bookstore/book[price] ：表示选择bookstore的book子元素，且被选中的book元素必须带有price子元素。

[例14]

/bookstore/book[price>35.00] ：表示选择bookstore的book子元素，且被选中的book元素的price子元素值必须大于35。

[例15]

/bookstore/book[price>35.00]/title ：表示在例14结果集中，选择title子元素。

[例16]

/bookstore/book/price[.>35.00] ：表示选择值大于35的"/bookstore/book"的price子元素。

五、通配符

# "*"表示匹配任何元素节点。

# "@*"表示匹配任何属性值。

# node()表示匹配任何类型的节点。

[例17]

//* ：选择文档中的所有元素节点。

[例18]

/*/* ：表示选择所有第二层的元素节点。

[例19]

/bookstore/* ：表示选择bookstore的所有元素子节点。

[例20]

//title[@*] ：表示选择所有带有属性的title元素。

六、选择多个路径

用"|"选择多个并列的路径。

[例21]

//book/title | //book/price ：表示同时选择book元素的title子元素和price子元素。

【相关文章】

* CSS选择器笔记

（完）

参考：

http://www.ruanyifeng.com/blog/2009/07/xpath_path_expressions.html

在线测试：

http://mizar.dk/XPath/Default.aspx

xpath选择器使用的更多相关文章

Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
使用scrapy中xpath选择器的一个坑点
情景如下: 一个网页下有一个ul,这个ur下有125个li标签,每个li标签下有我们想要的 url 字段(每个 url 是唯一的)和 price 字段,我们现在要访问每个li下的url并在生成的请求中 ...
常用xpath选择器和css选择器总结
xpath选择器表达式说明 article 选取所有article元素的所有子节点 /article 选取根元素article article/a 选取所有属于article的子元素的a元素 // ...
xpath选择器简介及如何使用
xpath选择器简介及如何使用一.总结一句话总结:XPath 的全称是 XML Path Language,即 XML 路径语言,它是一种在结构化文档(比如 XML 和 HTML 文档)中定位信息 ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
Selenium(九)：Xpath选择器
1. Xpath选择器 1.1 Xpath语法简介前面我们学习了CSS选择元素. 大家可以发现非常灵活.强大. 还有一种灵活.强大的选择元素的方式,就是使用Xpath表达式. XPath (XML ...
用Xpath选择器解析网页（lxml）
在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ...
初始scrapy,简单项目创建和CSS选择器,xpath选择器(1)
一安装 #Linux: pip3 install scrapy #Windows: a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu ...
使用 XPath 选择器
在前面的内容中,我们掌握了一些 CSS 选择器和它们的使用方法,以及 rvest 包中用于提取网页内容的函数.一般来说,CSS 选择器足够满足绝大部分的 HTML 节点匹配的需要.但是,当需要根据某些 ...

随机推荐

javascript学习小记（一）
大四了,课少了许多,突然之间就不知道学什么啦.整天在宿舍混着日子,很想学习就是感觉没有一点头绪,昨天看了电影激战.这种纠结的情绪让我都有点喘不上气啦!一点要找点事情干了,所以决定找个东西开始学习.那就 ...
Asp.net开启分布式事务管理
1.确保服务器分布式管理服务 Distributed Transcation Coordinator 有开启 2.使用分布式事务代码的项目中添加System.Transactions程序集的引用 3. ...
三门概率问题之C#版
前言: 早上看到一片关于三门问题的博客http://www.cnblogs.com/twocats/p/3440398.html,抱着该博客结论的怀疑态度用C#语言写了一些代码.实验证明该博客的结论是 ...
处理XML的几种方式
晚上突然收到codeproject发来的订阅邮件,上面是关于用DOM出来XML,想总结一下有哪些方式可以轻松得处理XML DOM:这个再古老不过了,貌似大学开XML课程的时候,老师首推DOM XPat ...
BZOJ2879 [Noi2012]美食节
AC通道:http://www.lydsy.com/JudgeOnline/problem.php?id=2879 这题codevs上也有,不过数据不同:http://codevs.cn/proble ...
在线编辑器 (UBB, FCK)
这里主要说明一下:UBB UBB 使用类型HTML的语法. UBB相对FCK的HTML方式, 安全性高. 用户不可以直接嵌入HTML代码. UBB 在线编辑器(JS版): http://www. ...
Linux Rsync
一.Rsync介绍 1.什么是Rsync Rsync 即Remote Rynchronization,是一款开源的.快速的.多功能的.可实现全量或增量的本地或者远程数据镜像同步复制.备份的优秀工具. ...
ZOJ3550 Big Keng(三分)
题意:给定一个立体的图形,上面是圆柱,下面是圆台,圆柱的底面半径和圆台的上半径相等,然后体积的V时,问这个图形的表面积最小可以是多少.(不算上表面).一开始拿到题以为可以YY出一个结果,就认为它是圆锥 ...
flume-ng+Kafka+Storm+HDFS 实时系统搭建
转自:http://www.tuicool.com/articles/mMrQnu7 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm ...
mysql 中的bool值
boolean在MySQL里的类型为tinyint(1) 很奇怪.

xpath选择器使用

xpath选择器使用的更多相关文章

随机推荐

热门专题