xpath的作用就是两个字“定位”,运用各种方法进行快速准确的定位,推荐两个非常有用的的firefox工具:firebug和xpath checker
定位
1.依靠自己属性,文本定位
//td[text()='xxx']
//div[contains(@class,'xxx')]
//div[@class='xxx' and @type='xxx']
2.依靠父节点定位
//div[@class='xxx']/div
//div[@id='xxx']/div
3.依靠子节点定位
//div[div[@id='xxx']]
//div[div[@name='xxx']]
4.混合型
//div[div[@name='xxx']]/img
//td[a/font[contains(text(),'xxx')]]//input[@type='xxx']
xpath的学习-拓展
1.following-sibling
following-sibling即为“选择当前节点之后的所有同级节点”,那么没有加上“sibling”关键字的,搜索的就是之上/之下的所有节点,忽略同级概念,例如:
<div>
<input id="123">
<input>
</div>
要定位第二个input://input[@id='123']/following-sibling::input
2.preceding-sibling
preceding-sibling的解释是“选取当前节点之前的所有同级节点”,那么没有加上“sibling”关键字的,搜索的就是之上/之下的所有节点,忽略同级概念, preceding-sibling和following-sibling是刚好相反的
<div>
<span>text</span>
<input id="123">
</div>
要定位第二个input://input[@id='123']/preceding-sibling::span
3.contains
和字面意思一样就是包含,例如://div[contains(@class,'xxx')]
4.starts-with
和字面意思一样就是以某某开头,例如://input[starts-with(@class,'xxx')]
5.not
就是否定的意思
比如找一个id不为123的input:input[not[id='123']]
又如找一个文本中不包含xxx字段的span://span[not(contains(text(),'xxx'))]
xpath的学习-补充
绝对路径 html/body/div/span[2]/input[2] 中间结构变化,就失效
相对路径 //开始,在整个html source里找,不管在什么位置
索引[x] //div/input[2] div下面第二个input
position()=2position()>3position()<3
例如html:<div id="positions">
<input>
<span>test position()1</span>
<span>test position()2</span>
<span>test position()3</span>
<span>test position()4</span>
<span>test position()5</span>
</input>
</div>
获取第一个span,可以是//div[@id='positions']/span[1],也可以是//div[@id='positions']/span[position()=1]
//div[@id='positions']/span[position()>3]就是定位了test position()4和test position()5
//div[@id='positions']/span[position()<3]就是定位了test position()1和test position()2
last()last()-1
以上面的html为例子,获取最后一个span://div[@id='positions']/span[last()]
以上面的html为例子,获取倒数第二个span://div[@id='positions']/span[last()-1]
属性定位@class //div[@class] 有class属性的div
属性值定位,前面已经讲过了 //div[@class='xxx']
功能关键字
1.常用
and/[][],比如://span[@name='xxx' and text()='xxx']也是可以写成//span[@name='xxx'][text()='xxx']
or,比如以上面html为例子,定位文本为test position()5和test position()4的span://div[@id='positions']/span[text()='test position()5' or text()='test position()4']
not,contains,starts-with
ends-with 在xpath中是没有这个的
2.不常用的
substring,substring-before,substing-after
sbustring(str,start-position,length) 比如html:
<div id="xxx">
<span name="?-xxxxx-09">text</span>
</div>
定位上面html中span://div[@id='xxx']/span[substring(@name,3,5)='xxxxx']
substring-before的用法,比如html
<div id="xxx">
<span class="spanclass1-789">text</span>
</div>
定位上面html中span://div[@id="xxx"]/span[sbustring-before(@class,"-")="spanclass1"]
substring-after的用法,比如html
<div id="xxx">
<span class="789-spanclass2">text</span>
</div>
定位上面html中span://div[@id="xxx"]/span[sbustring-after(@class,"-")="spanclass22"]
通配符 *
比如//span[@*="xxx"]指定位span中任意属性包含xxx的
比如//*[@*="xxx"]指定位页面中任意属性保护xxx的标签
Axes 轴
parent 父节点
ancestor 祖先节点,包括父节点,一层一层向上
descendant 所有子孙节点找,不管什么位置,简写//,就是xpath中出现//的情况。。//div[@class="xxx"]//input
follwing-sibling 当前元素后面的兄弟姐妹
preceding-sibling 当前元素前面的兄弟姐妹
following 当前元素后面所有元素,一直到</html>
preceding 当前元素之前所有元素,一直到<html>
ancestor-or-self
descendant-or-self
使用的时候注意加上::
- 【转】XPath的学习
xpath的作用就是两个字“定位”,运用各种方法进行快速准确的定位,推荐两个非常有用的的firefox工具:firebug和xpath checker 定位 1.依靠自己属性,文本定位 //td[ ...
- Xpath语法学习
贴几个我学习Xpath的参考 1 基本使用的参考 XPath学习:基本语法(一) 2 较为详细且清晰例子参考,推荐 XPath 详解,总结 3 详细语法参考 Xpath语法格式整理 4 官方参考 XP ...
- JAVA与DOM解析器提高(DOM/SAX/JDOM/DOM4j/XPath) 学习笔记二
要求 必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载 源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
- Xpath注入学习
xpath简介: 提到xpath就要先说下xml,xml意为可扩展标记语言,简单来说就是一种存储数据的标准格式,可以把他视为一个小型的数据库,他可以解决数据在网上传输的标准问题.是一种比数据库更具通用 ...
- 爬虫学习(十三)——xpath基础学习
lxml的作用 lxml是HTML.xml的解析器,主要的功能是如何解析和提取HTML和xml数据 lxml和正则一样,也是使用C来实现的,是一款高性能的python HTML/xml解析器,我们可以 ...
- XmlDocument.selectNodes() and selectSingleNode()的xpath的学习资料
Xpath网页: http://www.w3school.com.cn/xpath/xpath_syntax.asp XDocument.parse(string)类似于XmlDocument.loa ...
- xpath库学习
xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式. 环境安装 pip install lxml 解析原理 使用通用爬虫爬取网页数据 实例化etree对象,且将页面数据加载到该对象中 使用 ...
- Xpath基础学习
方法 获取文本 a/text() 获取a标签下的文本 a//text() 获取a标签下所有标签的文本 a[text()='xxx']获取文本为xxx的a标签 @符号 a/@href 获取a标签的hre ...
- Xpath语法学习记录
高级参考:https://blog.csdn.net/wudaoshihun/article/details/82226122 举例: 1 <!DOCTYPE html> 2 <ht ...
随机推荐
- 11-while循环基本使用
hm_02_第一个while循环.py def main(): i = 1 while i <= 3: print(i, 'Hello world') i += 1 print(i) 1 Hel ...
- lncRNA芯片重注释
.caret,.dropup>.btn>.caret{border-top-color:#000!important}.label{border:1px solid #000}.table ...
- ubuntu下python在pycharm环境下安装setuptools和pip,和distutils.core
python安装好后,我们用pycharm安装所需的第三方模块时,出现“Python packaging tools not found. install packaging tools”点击安装输完 ...
- Mac配置MySql
MySql在Mac下的情况如下: 首先,我们进入MySql的官网下载MySql(直接点击即可),打开之后便是这样. 我们点击红色方框标记的内容,之后我等待下载完成. 下载完成之后,我们需要点点,注意一 ...
- 20155317 实验二 Java面向对象程序设计
20155317 实验二 Java面向对象程序设计 实验内容 初步掌握单元测试和TDD 理解并掌握面向对象三要素:封装.继承.多态 初步掌握UML建模 熟悉S.O.L.I.D原则 了解设计模式 实验步 ...
- 20155323刘威良第一次实验 Java开发环境的熟悉(Linux + IDEA)
20155323刘威良第一次实验 Java开发环境的熟悉(Linux + IDEA) 实验内容 1.使用JDK编译.运行简单的Java程序: 2.使用Eclipse 编辑.编译.运行.调试Java程序 ...
- 20155334 2016-2017-2 《Java程序设计》第四周学习总结
20155334 2016-2017-2 <Java程序设计>第四周学习总结 教材学习内容总结 第六章:继承与多态 继承:面对对象中,子类继承父类,避免重复的行为定义 extends表示会 ...
- Storyboarding by Scripting
Storyboarding by Scripting In the .osu file, under [Events]:Note: underscores can be replaced with s ...
- 【转载】ID3DXSPRITE接口简单使用
原文:ID3DXSPRITE接口简单使用 前些日子一直研究DDraw,毕竟是DirectX7的东西了,所以转手用DirectD3D9,用了Surface进行绘图,可是怎么做透明色也都是不行loadfr ...
- 软考之信息安全工程师(包含2016-2018历年真题详解+官方指定教程+VIP视频教程)
软考-中级信息安全工程师2016-2018历年考试真题以及详细答案,同时含有信息安全工程师官方指定清华版教程.信息安全工程师高清视频教程.持续更新后续年份的资料.请点赞!!请点赞!!!绝对全部货真价实 ...