逐层检索和全局检索

布啦豆 11203

本节主要介绍用xpath来描述html的层级关系

主要使用到的知识点如下：

单独的一个点 .，表示当前位置
两个点 ..，表示上一级父标签的位置
单独的一个斜杠 /，表示只检索下面一级
单独的两个斜杠 //，表示检索下面全部位置
下标 [数字]：从1开始，依次计算

准备代码

首先是一个HTML代码块，以及lxml的代码

html_str = """

<body>

<div class="ui container">

        <table class="ui striped  table">

            <tr>

                <th>姓名</th>

                <th>性别</th>

                <th>邮箱</th>

                <th>电话</th>

            </tr>

            <tr>

                <td><a href="zhangwei">张伟</a></td>

                <td>男</td>

                <td>zhangwei@haoren.com</td>

                <td>12138-111</td>

            </tr>

            <tr>

                <td><a href="yifei">一菲</a></td>

                <td>女</td>

                <td>yifei@haoren.com</td>

                <td>12138-112</td>

            </tr>

            <tr>

                <td><a href="xiaoxian">小贤</a></td>

                <td>男</td>

                <td>xiaoxian@haoren.com</td>

                <td>12138-113</td>

            </tr>

            <tr>

                <td><a href="meijia">美嘉</a></td>

                <td>女</td>

                <td>meijia@haoren.com</td>

                <td>12138-114</td>

            </tr>

            <tr>

                <td><a href="xiaobu">小布</a></td>

                <td>男</td>

                <td>xiaobu@hundan.com</td>

                <td>12138-115</td>

            </tr>

        </table>

</div>

</body>

"""

from lxml import etree

html = etree.HTML(html_str)

这次的html，主要是表格，还都是些名字，现在开始后面的任务吧

任务一：获取表格头部【即第一栏 `tr` 标签】的所有 `th` 标签文本值

当前html就一个表格，然后取得第一个 tr 标签，再提取里面 th 标签的文本即可，xpath如下：

print(html.xpath('.//table/tr[1]/th/text()'))

print(html.xpath('.//table/tr/th/text()')) # 这个规则也行，因为 th 标签只有这里有

运行结果：['姓名', '性别', '邮箱', '电话']

任务二：提起五条记录中的全部电话

提取表格记录中的全部电话文本，这里就涉及了五个 tr 标签，且都是最后一个td标签，所以这里先获取全部的tr，然后再拿第四个td标签即可，xpath如下：

print(html.xpath('.//table/tr/td[4]/text()'))

运行结果：['12138-111', '12138-112', '12138-113', '12138-114', '12138-115']

任务三：获取所有性别为男的所有姓名

这个任务稍微有点绕弯，因为性格和姓名的两个标签，不是父子级关系【用以前的方法，性别为父姓名为子是可以正常获取的】，而是同级再嵌套【姓名在a标签下面】的关系。

所以这里需要用的知识点是比较、父级跳出、获取同级的子级文本，一步步来，如下步骤：

1、第一步：获取性别为男的文本，xpath规则如下：

print(html.xpath('.//table/tr/td[text()="男"]/text()'))

运行结果：['男', '男', '男']

2、获取到之后，往外跳一层，得到对应的三个tr标签，xpath规则如下：

print(html.xpath('.//table/tr/td[text()="男"]/..'))

运行结果：[<Element tr at 0x1fd15543808>, <Element tr at 0x1fd15543848>, <Element tr at 0x1fd15543748>]【虽然结果看不出什么，但是从数量来看，是三个而不是五个】

3、到了这里就简单多了，因为姓名是第一个td标签下的a标签，直接获取下标1的文本值，简单明了

print(html.xpath('.//table/tr/td[text()="男"]/../td[1]/a/text()'))

运行结果：['张伟', '小贤', '小布']

任务四：仔细观察邮箱，获取所有是 haoren 邮箱的姓名

通过任务三的训练，四的难度更上一层楼，因为这里涉及一个前面没出现的判断——包含关系。

因为每个人的邮箱是不一样的，但是要获取邮箱中有haoren的邮箱，并输出它的归属人姓名，难点就在这个比较。

不过难不倒强大的Xpath，介绍一个函数：contains(字符串, 子串)。函数接收两参数，用当前情况来讲，前面是完整邮箱，后面是"haoren"，就这么简单。

下面是具体使用示例，获取符合规格的好人邮箱：

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/text()'))

运行结果：['zhangwei@haoren.com', 'yifei@haoren.com', 'xiaoxian@haoren.com', 'meijia@haoren.com']

结局挺好，除了小布，其余都是好人

然后就跳到上级，获取他们的姓名了，xpath规则如下：

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/../td/a/text()'))

运行结果：['张伟', '一菲', '小贤', '美嘉']

任务五：一条xpath，获取出张伟的全部信息【姓名、性别、邮箱、电话】

表格一般都是统一的规则，按理出牌，td里面套a是不太合规的，但是html语言是没有对错的，不关闭标签都是可以的。

既然任务有这条，那就用点不一样的思维来理解xpath：text()是获取文本的，一般使用，都是在没有子级标签中，这样可以防止空格、换行的问题。

但是姓名栏的td标签内，只有a标签，除了a标签空格都没有，这就很好办了，用双斜杠+text()来获取姓名。

而且除了姓名的td，双斜杠+text()这个用法，对其余三栏不会有任何问题，然后问题就顺顺滑滑的解决了

最终的xpath如下：

print(html.xpath('.//table/tr[2]/td//text()'))

结果：['张伟', '男', 'zhangwei@haoren.com', '12138-111']

最终的代码和运行截图

html_str = """

<body>

<div>

        <table>

            <tr>

                <th>姓名</th>

                <th>性别</th>

                <th>邮箱</th>

                <th>电话</th>

            </tr>

            <tr>

                <td><a href="zhangwei">张伟</a></td>

                <td>男</td>

                <td>zhangwei@haoren.com</td>

                <td>12138-111</td>

            </tr>

            <tr>

                <td><a href="yifei">一菲</a></td>

                <td>女</td>

                <td>yifei@haoren.com</td>

                <td>12138-112</td>

            </tr>

            <tr>

                <td><a href="xiaoxian">小贤</a></td>

                <td>男</td>

                <td>xiaoxian@haoren.com</td>

                <td>12138-113</td>

            </tr>

            <tr>

                <td><a href="meijia">美嘉</a></td>

                <td>女</td>

                <td>meijia@haoren.com</td>

                <td>12138-114</td>

            </tr>

            <tr>

                <td><a href="xiaobu">小布</a></td>

                <td>男</td>

                <td>xiaobu@hundan.com</td>

                <td>12138-115</td>

            </tr>

        </table>

</div>

</body>

"""

from lxml import etree

html = etree.HTML(html_str)

# 任务一

print(html.xpath('.//table/tr[1]/th/text()'))

print(html.xpath('.//table/tr/th/text()'))

# 任务二

print(html.xpath('.//table/tr/td[4]/text()'))

# 任务三

print(html.xpath('.//table/tr/td[text()="男"]/text()'))

print(html.xpath('.//table/tr/td[text()="男"]/..'))

print(html.xpath('.//table/tr/td[text()="男"]/../td[1]/a/text()'))

# 任务四

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/text()'))

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/../td/a/text()'))

# 任务五

print(html.xpath('.//table/tr[2]/td//text()'))

http://www.spbeen.com/p/bb16e09d-511f-4728-af49-752ced909ec1

xpath教程-逐层检索和全局检索转的更多相关文章

xpath教程三---逐层检索和全局检索
本节主要介绍用xpath来描述html的层级关系主要使用到的知识点如下: 单独的一个点 .,表示当前位置两个点 ..,表示上一级父标签的位置单独的一个斜杠 /,表示只检索下面一级单独的两个斜杠 ...
xpath教程-通过ID和Class检索转
通过ID和Class检索必备知识点在html中,id是唯一的在html中,class是可以多处引用的工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自 ...
xpath教程二 ---- 通过ID和Class检索
必备知识点在html中,id是唯一的在html中,class是可以多处引用的工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests ...
Hibernate检索策略与检索方式
hibernate的Session在加载Java对象时,一般都会把鱼这个对象相关联的其他Java对象也都加载到缓存中,以方便程序的调用.但很多情况下,我们不需要加载太多无用的对象到缓存中,一来会占用大 ...
[原创]java WEB学习笔记88：Hibernate学习之路-- -Hibernate检索策略(立即检索，延迟检索，迫切左外连接检索)
本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱 ...
前端测试框架Jest系列教程 -- Global Functions（全局函数）
写在前面: Jest中定义了很多全局性的Function供我们使用,我们不必再去引用别的包来去实现类似的功能,下面将列举Jest中实现的全局函数. Jest Global Functions afte ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
xpath教程 1 - 什么是XPath
xpath教程 1 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. W3School官方 ...
雷林鹏分享：Ruby XML, XSLT 和 XPath 教程
Ruby XML, XSLT 和 XPath 教程什么是 XML ? XML 指可扩展标记语言(eXtensible Markup Language). 可扩展标记语言,标准通用标记语言的子集,一种 ...

随机推荐

[LeetCode]215. 数组中的第K个最大元素(堆)
题目在未排序的数组中找到第 k 个最大的元素.请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素. 示例 1: 输入: [3,2,1,5,6,4] 和 k = 2 输出 ...
浅入ABP(1)：搭建基础结构的 ABP 解决方案
浅入ABP(1):搭建基础结构的 ABP 解决方案目录浅入ABP(1):搭建基础结构的 ABP 解决方案搭建项目基础结构 ApbBase.Domain.Shared 创建过程 ApbBase.D ...
Spring源码解析 | 第二篇：Spring IOC容器之XmlBeanFactory启动流程分析和源码解析
一. 前言 Spring容器主要分为两类BeanFactory和ApplicationContext,后者是基于前者的功能扩展,也就是一个基础容器和一个高级容器的区别.本篇就以BeanFactory基 ...
nginx中编写lua拦截器
先配置nginx location ~ .*\.(php|php5)?$ { if ($request_uri ~ "one/tes ...
CPF 入门教程 - 绘图（四）
CPF NetCore跨平台UI框架,增加了Vlc支持跨平台播放视频. 系列教程 CPF 入门教程(一) CPF 入门教程 - 数据绑定和命令绑定(二) CPF 入门教程 - 样式和动画(三) CPF ...
苏大文正节点一 ORA-00603 ORA-27504 ORA-27300 ORA-27301 ORA-27302 BUG
Problem Description --------------------------------------------------- Tue Sep 01 04:05:33 2020 s ...
php第六天-UNIX时间戳/格式化时间，程序错误发送的领域
###0x01 PHP的错误处理 1.1 错误报告级别 PHP程序的错误发生一般归属于下列三个领域: 语法错误: 语法错误最常见,并且也容易修复.如:代码中遗漏一个分号.这类错误会阻止脚本的执行. 运 ...
搜索引擎学习（三）Lucene查询索引
一.查询理论创建查询:构建一个包含了文档域和语汇单元的文档查询对象.(例:fileName:lucene) 查询过程:根据查询对象的条件,在索引中找出相应的term,然后根据term找到对应的文档i ...
Centos-zip压缩-文件或目录-zip unzip
zip uzip 将一般文件或者目录进行压缩或者解压,默认以 .zip为后缀名 zip 相关选项 -r 递归压缩目录 -d 从压缩包中删除指定文件 -i 压缩指定文件列表文件 -x 压缩排除指定文件 ...
Python numpy总结（3）——常用函数用法
1,np.ceil(x, y) 限制元素范围,进一法,即向上取整. x 表示输入的数据 y float类型表示每个元素的上限. a = np.array([-1.7, -1.5, -0.2, 0. ...

xpath教程-逐层检索和全局检索 转