更简单高效的HTML数据提取-Xpath

本文地址：https://www.jianshu.com/p/90e4b83575e2

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

相比于BeautifulSoup，Xpath在提取数据时会更加的方便。

安装

在Python中很多库都有提供Xpath的功能，但是最基本的还是lxml这个库，效率最高。在之前BeautifulSoup章节中我们也介绍到了lxml是如何安装的。

pip install lxml

语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

我们将用以下的HTML文档来进行演示：

html_doc = '''<html>

<head></head>

<body>
    <bookstore>

        <book category="COOKING">
            <title lang="en">Everyday Italian</title>
            <author>Giada De Laurentiis</author>
            <year>2005</year>
            <price>30.00</price>
        </book>

        <book category="CHILDREN">
            <title lang="en">Harry Potter</title>
            <author>J K. Rowling</author>
            <year>2005</year>
            <price>29.99</price>
        </book>

        <book category="WEB">
            <title lang="en">XQuery Kick Start</title>
            <author>James McGovern</author>
            <author>Per Bothner</author>
            <author>Kurt Cagle</author>
            <author>James Linn</author>
            <author>Vaidyanathan Nagarajan</author>
            <year>2003</year>
            <price>49.99</price>
        </book>

        <book category="WEB">
            <title lang="en">Learning XML</title>
            <author>Erik T. Ray</author>
            <year>2003</year>
            <price>39.95</price>
        </book>

    </bookstore>
</body>

</html>'''

from lxml import etree

page = etree.HTML(html_doc)

路径查找

表达式	描述
nodename	选取此节点的子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

查找当前节点的子节点

In [1]: page.xpath('head')
Out[1]: [<Element head at 0x111c74c48>]

从根节点进行查找

In [2]: page.xpath('/html')
Out[2]: [<Element html at 0x11208be88>]

从整个文档中所有节点查找

In [3]: page.xpath('//book')
Out[3]:
[<Element book at 0x1128c02c8>,
 <Element book at 0x111c74108>,
 <Element book at 0x111fd2288>,
 <Element book at 0x1128da348>]

选取当前节点的父节点

In [4]: page.xpath('//book')[0].xpath('..')
Out[4]: [<Element bookstore at 0x1128c0ac8>]

选取属性

In [5]: page.xpath('//book')[0].xpath('@category')
Out[5]: ['COOKING']

节点查找

表达式	结果
nodename[1]	选取第一个元素。
nodename[last()]	选取最后一个元素。
nodename[last()-1]	选取倒数第二个元素。
nodename[position()<3]	选取前两个子元素。
nodename[@lang]	选取拥有名为 lang 的属性的元素。
nodename[@lang='eng']	选取拥有lang属性，且值为 eng 的元素。

选取第二个book元素

In [1]: page.xpath('//book[2]/@category')

Out[1]: ['CHILDREN']

选取倒数第三个book元素

In [2]: page.xpath('//book[last()-2]/@category')

Out[2]: ['CHILDREN']

选取第二个元素开始的所有元素

In [3]: page.xpath('//book[position() > 1]/@category')

Out[3]: ['CHILDREN', 'WEB', 'WEB']

选取category属性为WEB的的元素

In [4]: page.xpath('//book[@category="WEB"]/@category')

Out[4]: ['WEB', 'WEB']

未知节点

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。

匹配第一个book元素下的所有元素

In [1]: page.xpath('//book[1]/*')

Out[1]:

[<Element title at 0x111f76788>,

 <Element author at 0x111f76188>,

 <Element year at 0x1128c1a88>,

 <Element price at 0x1128c1cc8>]

获取节点中的文本

用text()获取某个节点下的文本
```
In [1]: page.xpath('//book[1]/author/text()')

Out[1]: ['Giada De Laurentiis']
```
如果这个节点下有多个文本，则只能取到一段。

用string()获取某个节点下所有的文本

In [2]: page.xpath('string(//book[1])')

Out[2]: '\n            Everyday Italian\n            Giada De Laurentiis\n            2005\n            30.00\n        '

选取多个路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

In [1]: page.xpath('//book[1]/title/text() | //book[1]/author/text()')

Out[1]: ['Everyday Italian', 'Giada De Laurentiis']

python爬虫基础04-网页解析库xpath的更多相关文章

【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
网页解析库-Xpath语法
网页解析库简介除了正则表达式外,还有其他方便快捷的页面解析工具如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言, ...
python爬虫基础15-python图像处理,PIL库
Python图像处理-Pillow 简介 Python传统的图像处理库PIL(Python Imaging Library ),可以说基本上是Python处理图像的标准库,功能强大,使用简单. 但是由 ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python的网页解析库-PyQuery
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
Python_爬虫_BeautifulSoup网页解析库
BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含的几个解析器 Python标准库[主要,系统自带;] ...
Python爬虫利器一之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...

随机推荐

HDU4089（概率dp）
题解要点: 1.转移方程分三段,这个……有点复杂但是还好吧……大概就是求啥设啥,然后只通过可行的状态过来.在纸上记一记. 2.每层里面必须先求dp[i][i],简直就是我求我自己……用类似进制数那种 ...
HTML实例之简单的网页布局
需求: <html> <head> <title>简单的表格网页布局</title> <meta charset="UTF-8" ...
使用JDBC进行简单的增删改查
JDBC为java的基础.用jdbc实现对数据库的增删改查的功能是程序员的基本要求.本例以mysql为例,首先要使用本例需要添加mysql-connector-java-5.1.7-bin.jar包. ...
《高性能MySQL》读书笔记之 MySQL锁、事务、多版本并发控制的基础知识
1.2 并发控制 1.2.1 读写锁在处理并发读或写时,通过实现一个由两种类型的锁组成的锁系统来解决问题.这两种类型的锁通常被称为共享锁(shared lock) 和排它锁(exclusive ...
由于js词法性质和全局变量被更改，循环绑定的click事件执行时变量和定义时不一致的bug，各种解决方案。
由于js词法性质和全局变量被更改,循环绑定的click事件执行时变量和定义时不一致的bug,各种解决方案. 动态在页面上添加了5个按钮,实现的功能应该是点击对应按钮在控制台输出相应的索引.但因为应该 ...
JavaScript之执行环境及作用域
执行环境定义了变量或函数有权访问的其他数据,决定了它们各自的行为.每个执行环境都有一个与之关联的变量对象,环境中定义的所有变量和函数都保存在这个对象中.我们编写的代码是无法访问这个对象的,但解 ...
okhttp使用心得(https验证不通过)（一）
之前项目使用的是okhttp3.4版本的,tls协议支持1.0 1.2 等等后来换成okhttp3.8.1,发现握手失败找了好多原因之后发现吧tls加上1.0后,就可以握手成功了,但是tls1 ...
GreenDao3.2的使用
原文:http://blog.csdn.net/qq_30379689/article/details/54410838 GreenDao3.2的使用,爱不释手本篇文章包括以下内容: 前言 Gree ...
c++的const和static区别
const定义的常量在超出其作用域之后其空间会被释放,而static定义的静态常量在函数执行后不会释放其存储空间. static表示的是静态的.类的静态成员函数.静态成员变量是和类相关的,而不是和类的 ...
MySQL存储过程（更新指定字段的数据）
mysql存储过程示例: USE 数据库名称;DROP PROCEDURE IF EXISTS 数据库名称.存储过程名称;delimiter $$CREATE PROCEDURE 数据库名称.存储过程 ...

python爬虫基础04-网页解析库xpath