[XPath] XPath 与 lxml （五）XPath 实例

本文继续沿用第三章的 XML 示例文档。

选取价格高于30的 price 节点

# 从父节点进行筛选

>>> root.xpath('//book[price>30]/price')

[<Element price at 0x2d888c8>]

# 直接对 price 进行筛选

>>> root.xpath('//price[text()>30]')

[<Element price at 0x2d888c8>]

选取 price 高于 30 的 title 节点

# 从父节点开始选取

>>> root.xpath('//book[price>30]/title')

[<Element title at 0x2d88878>]

# 从节点本身选取

>>> root.xpath('//price[text()>30]//preceding-sibling::title|following-sibling::title')

[<Element title at 0x2d88878>]

# 从 price 到父节点选取

>>> root.xpath('//price[text()>30]//parent::*/title')

[<Element title at 0x2d88878>]

处理命名空间

>>> xml = """<?xml version="1.0" encoding="utf8"?>

<bookstore xmlns:a="http://www.google.com">

    <a:book>

        <title lang="eng">Harry Potter</title>

        <price>29.99</price>

    </a:book>

    <book>

        <title lang="eng">Learning XML</title>

        <price>39.95</price>

    </book>

</bookstore>"""

# 获取根节点

>>> root = etree.fromstring(xml)

# 选取不带命名空间的 book 元素

>>> root.xpath('//book')

[<Element book at 0x2d88940>]

# 选取所有的 book 元素，无论是否含有命名空间

# 其中 namespace 参数为一个字典对象，映射了命名空间前缀，本例中直接使用了文档原有的命名空间与前缀。

>>> root.xpath('//a:book|//book', namespaces=root.nsmap)

[<Element {http://www.google.com}book at 0x2d88878>, <Element book at 0x2d88940>]

[XPath] XPath 与 lxml （五）XPath 实例的更多相关文章

爬虫入门之爬取策略 XPath与bs4实现(五)
爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪 ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
Xpath语法与lxml库的用法
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2 ...
Xpath语法与lxml库
1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 2) X ...
Python爬虫11-XML与XPath概述及lxml库的应用
GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/ ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
爬虫之lxml - etree - xpath的使用
# 解析原理: # - 获取页面源码数据 # - 实例化一个etree对象,并且将页面源码数据加载到该对象中 # - 调用该对象的xpath方法进行指定标签定位 # - xpath函数必须结合着xpa ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
xpath教程 1 - 什么是XPath
xpath教程 1 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. W3School官方 ...

随机推荐

selenium（java）处理HTML5的视频播放
大多数浏览器使用控件(如 Flash) 来播放规频,但是,不同的浏览器需要使用不同的插件.HTML5 定义了一个新的元素<video>,,指定了一个标准的方式来嵌入电影片段.IE9+.Fi ...
Selenium常用操作汇总二——iframe的处理
有时候我们在定位一个页面元素的时候发现一直定位不了,反复检查自己写的定位器没有任何问题,代码也没有任何问题.这时你就要看一下这个页面元素是否在一个iframe中,这可能就是找不到的原因之一.如果你在一 ...
[转]Android开源框架ImageLoader的完美例子
Android开源框架ImageLoader的完美例子 2013年8月19日开源框架之Universal_Image_Loader学习很多人都在讨论如何让图片能在异步加载更加流畅,可以显示大量图片, ...
Solr系列一：Solr（Solr介绍、Solr应用架构、Solr安装使用）
一.前言前面已经学习了Lucene的分词.索引详解.搜索详解的知识,已经知道开发一个搜索引擎的流程了.现在就会有这样的一个问题:如果其他的系统也需要使用开发的搜索引擎怎么办呢?这个时候就需要把开发的 ...
Swing用户界面开发工具包开发记录
Swing是一个用于开发Java应用程序用户界面的开发工具包. 以抽象窗口工具包(AWT)为基础使跨平台应用程序可以使用任何可插拔的外观风格. Swing开发人员只用很少的代码就可以利用Swing丰富 ...
Python中的base64模块
本文介绍Python 2.7中的base64模块,该模块提供了基于rfc3548的Base16, 32, 64编解码的接口.官方文档,参考这里. 该模块提供两套接口,传统接口基于rfc1521的Bas ...
Solaris10 修改hostname
修改/etc/nodename 及 /etc/hosts & /etc/hostname.<NIC Name> 这三个文件就可以了重启
管道符和作业控制 shell变量环境变量配置文件
8.6 管道符和作业控制 8.7/8.8 shell变量 8.9 环境变量配置文件管道符和作业控制管道符:表示把一个文件的输出内容传送到后面的命令 grep 用来过滤指定关键词的命令 “|” 为 ...
转 linux 权限
发布系统架构图简化如下: 管理员通过Jenkins调用“发布程序(代号varian,以下简称varian)”,发布程序会进行一系列的初始化操作,完成后生成Docker镜像上传到Docker仓库,容器集 ...
Deep Voice
https://arxiv.org/abs/1702.07825 听起来和真人声非常接近了.

[XPath] XPath 与 lxml （五）XPath 实例

处理命名空间

[XPath] XPath 与 lxml （五）XPath 实例的更多相关文章

随机推荐

热门专题