[XPath] XPath 与 lxml （五）XPath 实例

本文继续沿用第三章的 XML 示例文档。

选取价格高于30的 price 节点

# 从父节点进行筛选

>>> root.xpath('//book[price>30]/price')

[<Element price at 0x2d888c8>]

# 直接对 price 进行筛选

>>> root.xpath('//price[text()>30]')

[<Element price at 0x2d888c8>]

选取 price 高于 30 的 title 节点

# 从父节点开始选取

>>> root.xpath('//book[price>30]/title')

[<Element title at 0x2d88878>]

# 从节点本身选取

>>> root.xpath('//price[text()>30]//preceding-sibling::title|following-sibling::title')

[<Element title at 0x2d88878>]

# 从 price 到父节点选取

>>> root.xpath('//price[text()>30]//parent::*/title')

[<Element title at 0x2d88878>]

处理命名空间

>>> xml = """<?xml version="1.0" encoding="utf8"?>

<bookstore xmlns:a="http://www.google.com">

    <a:book>

        <title lang="eng">Harry Potter</title>

        <price>29.99</price>

    </a:book>

    <book>

        <title lang="eng">Learning XML</title>

        <price>39.95</price>

    </book>

</bookstore>"""

# 获取根节点

>>> root = etree.fromstring(xml)

# 选取不带命名空间的 book 元素

>>> root.xpath('//book')

[<Element book at 0x2d88940>]

# 选取所有的 book 元素，无论是否含有命名空间

# 其中 namespace 参数为一个字典对象，映射了命名空间前缀，本例中直接使用了文档原有的命名空间与前缀。

>>> root.xpath('//a:book|//book', namespaces=root.nsmap)

[<Element {http://www.google.com}book at 0x2d88878>, <Element book at 0x2d88940>]

[XPath] XPath 与 lxml （五）XPath 实例的更多相关文章

爬虫入门之爬取策略 XPath与bs4实现(五)
爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪 ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
Xpath语法与lxml库的用法
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2 ...
Xpath语法与lxml库
1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 2) X ...
Python爬虫11-XML与XPath概述及lxml库的应用
GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/ ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
爬虫之lxml - etree - xpath的使用
# 解析原理: # - 获取页面源码数据 # - 实例化一个etree对象,并且将页面源码数据加载到该对象中 # - 调用该对象的xpath方法进行指定标签定位 # - xpath函数必须结合着xpa ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
xpath教程 1 - 什么是XPath
xpath教程 1 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. W3School官方 ...

随机推荐

Python之生成二面体群元素
from sympy.combinatorics.named_groups import DihedralGroup from collections import Counter n = 12 G ...
【转】【WPF】WPF MVVM 简单实例
1 新建WPF 应用程序WPFMVVMExample 程序结构如下图所示. 2 Model实现在Model文件夹下新建业务类StudentModel(类文件StudentModel.cs),类的详细 ...
嵌入式驱动开发之内核态spi ---module_spi_driver
http://blog.csdn.net/dearsq/article/details/51839083 http://blog.csdn.net/alleincao/article/details/ ...
TargetScan 数据库简介
TargetScan 是一个miRNA 靶基因预测的网站, 包括了人, 小鼠,果蝇 , 线虫, 斑马鱼共5个物种的miRNA 靶基因结果, 人 : TargetScanHuman 小鼠 :Targ ...
每天一个linux命令: /etc/group文件详解
Linux /etc/group文件与/etc/passwd和/etc/shadow文件都是有关于系统管理员对用户和用户组管理时相关的文件.linux /etc/group文件是有关于系统管理员对用户 ...
PHP中单引号与双引号的区别分析
From: http://www.jb51.net/article/53973.htm 在PHP中,我们可以使用单引号或者双引号来表示字符串.不过我们作为开发者,应该了解其中的区别.单引号与双引号对于 ...
MySQL存储引擎Innodb和MyISAM对比总结
Innodb引擎 InnoDB是一个事务型的存储引擎,设计目标是处理大数量数据时提供高性能的服务,它在运行时会在内存中建立缓冲池,用于缓冲数据和索引. Innodb引擎优点 1.支持事务处理.ACID ...
面试的角度诠释Java工程师（一）
前言: 我相信每一个程序员都是为了生活而努力着的.很多人因为兴趣,从此踏上了这条‘烧脑大行动’的金桥:也有很多人因为梦想和执着,奋不顾身融入这个职业:还有很多人因为被现实逼得太无奈,不得不为自己.为家 ...
Hadoop学习笔记——WordCount
1.在IDEA下新建工程,选择from Mevan GroupId:WordCount ArtifactId:com.hadoop.1st Project name:WordCount 2.pom.x ...
RTC教程
Tutorial: Get started with Rational Team Concert Getting Started with Jazz Source Control RTC入门教程及冲突 ...

[XPath] XPath 与 lxml （五）XPath 实例

处理命名空间

[XPath] XPath 与 lxml （五）XPath 实例的更多相关文章

随机推荐

热门专题