xpath的作用就是两个字“定位”,运用各种方法进行快速准确的定位,推荐两个非常有用的的firefox工具:firebug和xpath checker
 
定位
1.依靠自己属性,文本定位
//td[text()='xxx']
//div[contains(@class,'xxx')]
//div[@class='xxx' and @type='xxx']
 
2.依靠父节点定位
//div[@class='xxx']/div
//div[@id='xxx']/div
 
 
3.依靠子节点定位
//div[div[@id='xxx']]
//div[div[@name='xxx']]
 
4.混合型
//div[div[@name='xxx']]/img
//td[a/font[contains(text(),'xxx')]]//input[@type='xxx']
 
xpath的学习-拓展
1.following-sibling
following-sibling即为“选择当前节点之后的所有同级节点”,那么没有加上“sibling”关键字的,搜索的就是之上/之下的所有节点,忽略同级概念,例如:
<div>
<input id="123">
<input>    
</div>
要定位第二个input://input[@id='123']/following-sibling::input
 
2.preceding-sibling
preceding-sibling的解释是“选取当前节点之前的所有同级节点”,那么没有加上“sibling”关键字的,搜索的就是之上/之下的所有节点,忽略同级概念,                            preceding-sibling和following-sibling是刚好相反的
<div>
<span>text</span>
<input id="123">    
</div>
要定位第二个input://input[@id='123']/preceding-sibling::span
 
3.contains
和字面意思一样就是包含,例如://div[contains(@class,'xxx')]
 
4.starts-with
和字面意思一样就是以某某开头,例如://input[starts-with(@class,'xxx')]
 
5.not
就是否定的意思
比如找一个id不为123的input:input[not[id='123']]
又如找一个文本中不包含xxx字段的span://span[not(contains(text(),'xxx'))]
 
xpath的学习-补充
绝对路径 html/body/div/span[2]/input[2] 中间结构变化,就失效
相对路径 //开始,在整个html source里找,不管在什么位置
 
索引[x]  //div/input[2] div下面第二个input
 
position()=2position()>3position()<3
例如html:<div id="positions">
<input>
<span>test position()1</span>
<span>test position()2</span>
<span>test position()3</span>
<span>test position()4</span>
<span>test position()5</span>
</input>
</div>
获取第一个span,可以是//div[@id='positions']/span[1],也可以是//div[@id='positions']/span[position()=1]
//div[@id='positions']/span[position()>3]就是定位了test position()4和test position()5
//div[@id='positions']/span[position()<3]就是定位了test position()1和test position()2
 
last()last()-1
以上面的html为例子,获取最后一个span://div[@id='positions']/span[last()]
以上面的html为例子,获取倒数第二个span://div[@id='positions']/span[last()-1]
 
属性定位@class   //div[@class]  有class属性的div
属性值定位,前面已经讲过了  //div[@class='xxx']
 
功能关键字
1.常用
and/[][],比如://span[@name='xxx' and text()='xxx']也是可以写成//span[@name='xxx'][text()='xxx']
or,比如以上面html为例子,定位文本为test position()5和test position()4的span://div[@id='positions']/span[text()='test position()5' or text()='test position()4']
not,contains,starts-with
ends-with 在xpath中是没有这个的
2.不常用的
substring,substring-before,substing-after
 
sbustring(str,start-position,length) 比如html:
<div id="xxx">
<span name="?-xxxxx-09">text</span>
</div>
定位上面html中span://div[@id='xxx']/span[substring(@name,3,5)='xxxxx']
 
substring-before的用法,比如html
<div id="xxx">
<span class="spanclass1-789">text</span>
</div>
定位上面html中span://div[@id="xxx"]/span[sbustring-before(@class,"-")="spanclass1"]
 
substring-after的用法,比如html
<div id="xxx">
<span class="789-spanclass2">text</span>
</div>
定位上面html中span://div[@id="xxx"]/span[sbustring-after(@class,"-")="spanclass22"]
通配符  *
比如//span[@*="xxx"]指定位span中任意属性包含xxx的
比如//*[@*="xxx"]指定位页面中任意属性保护xxx的标签
 
Axes 轴
parent 父节点
ancestor 祖先节点,包括父节点,一层一层向上
descendant 所有子孙节点找,不管什么位置,简写//,就是xpath中出现//的情况。。//div[@class="xxx"]//input
follwing-sibling 当前元素后面的兄弟姐妹
preceding-sibling 当前元素前面的兄弟姐妹
following 当前元素后面所有元素,一直到</html>
preceding  当前元素之前所有元素,一直到<html>
ancestor-or-self
descendant-or-self
使用的时候注意加上::

xpath的学习的更多相关文章

  1. 【转】XPath的学习

    xpath的作用就是两个字“定位”,运用各种方法进行快速准确的定位,推荐两个非常有用的的firefox工具:firebug和xpath checker   定位 1.依靠自己属性,文本定位 //td[ ...

  2. Xpath语法学习

    贴几个我学习Xpath的参考 1 基本使用的参考 XPath学习:基本语法(一) 2 较为详细且清晰例子参考,推荐 XPath 详解,总结 3 详细语法参考 Xpath语法格式整理 4 官方参考 XP ...

  3. JAVA与DOM解析器提高(DOM/SAX/JDOM/DOM4j/XPath) 学习笔记二

    要求 必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载 源码下载   sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...

  4. Xpath注入学习

    xpath简介: 提到xpath就要先说下xml,xml意为可扩展标记语言,简单来说就是一种存储数据的标准格式,可以把他视为一个小型的数据库,他可以解决数据在网上传输的标准问题.是一种比数据库更具通用 ...

  5. 爬虫学习(十三)——xpath基础学习

    lxml的作用 lxml是HTML.xml的解析器,主要的功能是如何解析和提取HTML和xml数据 lxml和正则一样,也是使用C来实现的,是一款高性能的python HTML/xml解析器,我们可以 ...

  6. XmlDocument.selectNodes() and selectSingleNode()的xpath的学习资料

    Xpath网页: http://www.w3school.com.cn/xpath/xpath_syntax.asp XDocument.parse(string)类似于XmlDocument.loa ...

  7. xpath库学习

    xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式. 环境安装 pip install lxml 解析原理 使用通用爬虫爬取网页数据 实例化etree对象,且将页面数据加载到该对象中 使用 ...

  8. Xpath基础学习

    方法 获取文本 a/text() 获取a标签下的文本 a//text() 获取a标签下所有标签的文本 a[text()='xxx']获取文本为xxx的a标签 @符号 a/@href 获取a标签的hre ...

  9. Xpath语法学习记录

    高级参考:https://blog.csdn.net/wudaoshihun/article/details/82226122 举例: 1 <!DOCTYPE html> 2 <ht ...

随机推荐

  1. 20155306 2016-2017-2 《Java程序设计》第1周学习总结

    20155306 2006-2007-2 <Java程序设计>第1周学习总结 教材学习内容总结 第一章 Java有三大平台:Java EE, Java SE, Java ME Java S ...

  2. css实现div两列布局——左侧宽度固定,右侧宽度自适应(两种方法)

    原文:css实现div两列布局--左侧宽度固定,右侧宽度自适应(两种方法) 1.应用场景 左侧一个导航栏宽度固定,右侧内容根据用户浏览器窗口宽度进行自适应 2.思路 首先把这个问题分步解决,需要攻克以 ...

  3. BZOJ054_移动玩具_KEY

    题目传送门 这道题我写IDA*写挂了,TLE+WA,只AC了两个点. 这道题标算BFS+状态压缩. code: /******************************************* ...

  4. day2 CSS- 选择器

    1.CSS 语法 css是英文Cascading Style Sheets的缩写,称为层叠样式表 2.css的四种引入方式 1.行内式 行内式是在标记的style属性中设定CSS样式.这种方式没有体现 ...

  5. Ceph学习之路(二)之Ceph的工作原理及流程

    一.RADOS的对象寻址 Ceph 存储集群从 Ceph 客户端接收数据——不管是来自 Ceph 块设备. Ceph 对象存储. Ceph 文件系统.还是基于 librados 的自定义实现——并存储 ...

  6. 任务队列和异步接口的正确打开方式(.NET Core版本)

    任务队列和异步接口的正确打开方式 什么是异步接口? Asynchronous Operations Certain types of operations might require processi ...

  7. Android 学习1

    使用eclipse做为开发IDE, 导包快捷键 在显红的地方按shift+ctrl+o 另外自动补全使用alt+/

  8. 一起来做Chrome Extension《一些问题》

    目录 Unchecked runtime.lastError: The message port closed before a response wa received. 使用 eval Conte ...

  9. 创建第一个Scrapy项目

    d:进入D盘 scrapy startproject tutorial建立一个新的Scrapy项目 工程的目录结构: tutorial/ scrapy.cfg # 部署配置文件 tutorial/ # ...

  10. NO.07--我跟“ 币乎 ”的那些事

    文章开头给大家安利一款app吧,就是我标题提到的,‘币乎’,一个近似于虚拟货币的论坛吧,大家可以下载试试,发文章点赞赚钱,... 好了,开始说一说今天的正题吧: 这些事情说起来其实挺惭愧的,但也不是什 ...