xpath总结

Python包

pip install lxml

　　在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。

xpath语法

/ 代表根路径, 在下面的实例中能够找到/html, 找不到/body

from lxml import etree

html = """<!DOCTYPE html>

<html>

    <head lang="en">

        <meta charset="UTF-8">

        <title></title>

    </head>

    <body>

        <ul>

            <li class="item-"><a id='i1' href="link.html">first item</a></li>

            <li class="item-0"><a id='i2' href="llink.html">first item</a></li>

            <li class="item-1"><a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <div><a href="llink2.html">second item</a></div>

    </body>

</html>

"""

page = etree.HTML(html)

a = page.xpath("/html")

b = page.xpath("/body")

print(a) # [<Element html at 0x1e9c3aa4508>]

print(b) # []

// 代表任何路径, 在下面的例子中,我们甚至可以选到li标签

from lxml import etree

html = """<!DOCTYPE html>

<html>

    <head lang="en">

        <meta charset="UTF-8">

        <title></title>

    </head>

    <body>

        <ul>

            <li class="item-"><a id='i1' href="link.html">first item</a></li>

            <li class="item-0"><a id='i2' href="llink.html">first item</a></li>

            <li class="item-1"><a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <div><a href="llink2.html">second item</a></div>

        <a>我是直属body的</a>

    </body>

</html>

"""

page = etree.HTML(html)

a = page.xpath("//li")

print(a)

/可以嵌套使用,如下实例

from lxml import etree

html = """<!DOCTYPE html>

<html>

    <head lang="en">

        <meta charset="UTF-8">

        <title></title>

    </head>

    <body>

        <ul>

            <li class="item-"><a id='i1' href="link.html">first item</a></li>

            <li class="item-0"><a id='i2' href="llink.html">first item</a></li>

            <li class="item-1"><a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <div><a href="llink2.html">second item</a></div>

    </body>

</html>

"""

page = etree.HTML(html)

a = page.xpath("//a")

b = page.xpath("//div/a")

print(a) # 他有4个

print(b) # 而div下的只有一个

.和..分别是当前节点和当前节点的父节点

from lxml import etree

html = """<!DOCTYPE html>

<html>

    <head lang="en">

        <meta charset="UTF-8">

        <title></title>

    </head>

    <body>

        <ul>

            <li class="item-"><a id='i1' href="link.html">first item</a></li>

            <li class="item-0"><a id='i2' href="llink.html">first item</a></li>

            <li class="item-1"><a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <div><a href="llink2.html">second item</a></div>

    </body>

</html>

"""

page = etree.HTML(html)

a = page.xpath("//ul")

print(a[0].xpath("./li")) # 在ul下可以找到3个li

print(a[0].xpath("../li")) # 而在ul的父标签下找不到li

print(a[0].xpath("../div")) # 但是却可以找到div

66的中括号, 说出来你可能不信. 这个中括号可以根据索引取, 根据属性取, 还不是一般的索引和属性

还是用上面的那个html

a = page.xpath("//li[1]/a/text()") # 取第一个

a = page.xpath("//li[last()]/a/text()") # 取最后一个

a = page.xpath("//li[last()-1]/a/text()") # 取倒数第二个, 减几都行

# 上面是取固定的, 下面是按范围

a = page.xpath("//li[position()<3]/a/text()") # 小于3的前两个

# [@attr] 可以按照属性取值

a = page.xpath("//li[@class]/a/text()") # 这样三个就都取出来了

a = page.xpath("//li[@class='item-0']/a/text()") # 只取出来固定属性的

# 甚至可以按照元素值的大小来查找

'''

<li class="item-"> <count>88</count> <a id='i1' href="link.html">first item</a></li>

<li class="item-0"><count>77</count> <a id='i2' href="llink.html">first item2</a></li>

<li class="item-1"><count>66</count> <a href="llink2.html">second item<span>vv</span></a></li>

'''

a = page.xpath("//li[count>68]/a/text()") # 查询子标签里的count标签里的文本大于68的

[]里还可以放函数

from lxml import etree

html = """<!DOCTYPE html>

<html>

    <head lang="en">

        <meta charset="UTF-8">

        <title></title>

    </head>

    <body>

        <ul>

            <li class="item-"> <count>88</count> <a id='i1' href="link.html">first item</a></li>

            <li class="item-0"><count>77</count> <a id='i2' href="llink.html">first item2</a></li>

            <li class="item-1"><count>66</count> <a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <ul>

            <li class="test-"> <count>88</count> <a id='i1' href="link.html">first item</a></li>

            <li class="test-0"><count>77</count> <a id='i2' href="llink.html">first item2</a></li>

            <li class="test-1"><count>66</count> <a href="llink2.html">second item<span>vv</span></a></li>

        </ul>

        <div><a href="llink2.html">second item</a></div>

    </body>

</html>

"""

page = etree.HTML(html)

a = page.xpath("//li[starts-with(@class,'test')]/@class") # class以test开头的

print(a)

a = page.xpath("//li[contains(@class,'1')]/@class") # class里包含1的

print(a)

a = page.xpath("//a[contains(text(),'item2')]/text()") # a标签的内容包含item2的

print(a)

# []里的and关系

a = page.xpath("//a[contains(text(),'item2') and @href='llink.html']/text()")

print(a)

其中还包括通配符

*表示任意节点,@*表示任何属性, node()表示任意节点

a = page.xpath("//*/a/text()") # 所有的a标签都选出来了, 不管是div下的a还是li下的a

a = page.xpath("//*/a[@*]/text()") # 这也是所有a, 你要是不服就把@*换成@id

a = page.xpath("//ul/node()") # 里面包括文本节点(换行符之类的)

选取多个路径

a = page.xpath("//ul | //div") # ul或div

轴

轴可定义相对于当前节点的节点集。

语法

轴名称::选择语句

轴名称	结果
ancestor	选选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。
attribute	选取当前节点的所有属性。
child	选取当前节点的所有子元素。
descendant	选取当前节点的所有后代元素（子、孙等）。
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身。
namespace	选取当前节点的所有命名空间节点
parent	选取当前节点的父节点。
preceding	选取文档中当前节点的开始标签之前的所有节点。
preceding-sibling	选取当前节点之前的所有同级节点。
self	选取当前节点。
following	选取文档中当前节点的结束标签之后的所有节点。

示例:
就随便来俩吧

a = page.xpath("//ul/child::li") # ul的子标签

a = page.xpath("//ul/li/child::a/attribute::href") # 取到href属性的值

取值

上卖我们一直用text()来取某个标签的文本, 下面来介绍其他几种

通过string取文本

page = etree.HTML(html)

a = page.xpath("string(//ul/li)")

print(a)

a = page.xpath("//ul/li")

for i in a:

    print(i.xpath("string(.)"))

通过@attr取属性

a = page.xpath("//a/@href")

print(a)

xpath总结的更多相关文章

xpath提取多个标签下的text
title: xpath提取多个标签下的text author: 青南 date: 2015-01-17 16:01:07 categories: [Python] tags: [xpath,Pyth ...
C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel, ...
在Java中使用xpath对xml解析
xpath是一门在xml文档中查找信息的语言.xpath用于在XML文档中通过元素和属性进行导航.它的返回值可能是节点,节点集合,文本,以及节点和文本的混合等.在学习本文档之前应该对XML的节点,元素 ...
XPath 学习二：语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 下面列出了最有用的路径表达式: 表达式描述 nodename 选 ...
xpath 学习一：节点
xpath 中,有七种类型的节点: 元素.属性.文本.命名空间.处理指令.注释.以及根节点树的根成为文档节点或者根节点. 节点关系: Parent, Children, sibling(同胞), A ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...
关于robotframework,app,appium的xpath定位问题及常用方法
关于类似的帖子好像很多,但是没有找到具体能帮我解决问题的办法.还是自己深究了好久才基本知道app上面的xpath定位和web上的不同点: 先放一个图: A,先说说不用xpath的场景,一般是用于存在i ...
Selenium Xpath Tutorials - Identifying xpath for element with examples to use in selenium
Xpath in selenium is close to must required. XPath is element locator and you need to provide xpath ...
xpath定位中starts-with、contains和text()的用法
starts-with 顾名思义,匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息,此处也可以用来做定位用 eg //input[sta ...

随机推荐

windows server 2016 支持多用户远程登录
服务器设置多用户同时远程桌面,可以提高访问效率,避免人多抢登服务器. 1. 首先需要先安装远程桌面服务配置组策略,运行框输入gpedit.msc,打开计算机配置–>管理模板—>wind ...
Codeforces 1163D DP + KMP
题意:给你一个字符串s,以及两个字符串s1,s2.s中有些位置是*,意思是可以随便填字母,s的子串中如果出现一次s1,就加一分,如果出现一次s2,就减一分.问这个字符串s最多可以得多少分? 思路: 设 ...
通信有连接有消息队列选择boost.asio
通信有连接有消息队列选择boost.asio 连接自主管理消息队列自主管理
重新创建redis集群的注意事项
一.重新创建redis集群的注意事项 1.将每个节点下aof.rdb.nodes.conf本地备份文件删除: 2.127.0.0.1:7001> flushdb #清空当前数据库(这一步可以省略 ...
CleanMyMac x如何关闭自动更新，CleanMyMac关闭自动更新的方法
在众多Mac清理软件中,CleanMyMac x应该是大多数Mac用户的选择,因为它不仅可以帮助我们清理系统垃圾,还可以帮助我们彻底卸载Mac上不需要的应用程序.今天要给大家介绍的是CleanMyMa ...
电子商务B2B的发展趋势
B2B的发展趋势尽管B2B市场发展势头良好,但B2B市场还是存在发育不成熟的一面.这种不成熟表现在B2B交易的许多先天性交易优势,比如在线价格协商和在线协作等还没有充分发挥出来. 报告指出,到200 ...
关于计算机学习的书（doc,mobi,epub,pdf四种格式）
关于计算机学习的书(doc,mobi,epub,pdf四种格式) <html> <body> <div> 21天学通C+ +2016/6/22 18:47文條 30 ...
Magento笔记/记录(1)
1.Magento eav_attribute表中source如何指定自定义数据来源如果你引用的类名为yebihai_usermanage_model_entity_school你必须完整的给出地 ...
CSS格式化---属性排序
一.背景与同事合作开发一个项目,后面修改 CSS 时,发现属性顺序跟我写的不一样我从事开发前端时,导师是有给我大概指定了一定的书写规范现在开发时,看到的 CSS 属性排序不一样,看起来有点难受( ...
list 链表
#include <list> #include <iostream> using std::list; /* 双向环状链表 //每一个结点一个数据域一个前驱指针一个后驱 ...