逐层检索和全局检索

布啦豆 11203

 

本节主要介绍用xpath来描述html的层级关系

主要使用到的知识点如下:

  • 单独的一个点 .,表示当前位置
  • 两个点 ..,表示上一级父标签的位置
  • 单独的一个斜杠 /,表示只检索下面一级
  • 单独的两个斜杠 //,表示检索下面全部位置
  • 下标 [数字]:从1开始,依次计算

准备代码

首先是一个HTML代码块,以及lxml的代码

html_str = """
<body>
<div class="ui container"> <table class="ui striped table">
<tr>
<th>姓名</th>
<th>性别</th>
<th>邮箱</th>
<th>电话</th>
</tr>
<tr>
<td><a href="zhangwei">张伟</a></td>
<td>男</td>
<td>zhangwei@haoren.com</td>
<td>12138-111</td>
</tr>
<tr>
<td><a href="yifei">一菲</a></td>
<td>女</td>
<td>yifei@haoren.com</td>
<td>12138-112</td>
</tr>
<tr>
<td><a href="xiaoxian">小贤</a></td>
<td>男</td>
<td>xiaoxian@haoren.com</td>
<td>12138-113</td>
</tr>
<tr>
<td><a href="meijia">美嘉</a></td>
<td>女</td>
<td>meijia@haoren.com</td>
<td>12138-114</td>
</tr>
<tr>
<td><a href="xiaobu">小布</a></td>
<td>男</td>
<td>xiaobu@hundan.com</td>
<td>12138-115</td>
</tr> </table>
</div>
</body>
""" from lxml import etree html = etree.HTML(html_str)

这次的html,主要是表格,还都是些名字,现在开始后面的任务吧

任务一:获取表格头部【即第一栏 tr 标签】的所有 th 标签文本值

当前html就一个表格,然后取得第一个 tr 标签,再提取里面 th 标签的文本即可,xpath如下:

print(html.xpath('.//table/tr[1]/th/text()'))
print(html.xpath('.//table/tr/th/text()')) # 这个规则也行,因为 th 标签只有这里有

运行结果:['姓名', '性别', '邮箱', '电话']

任务二:提起五条记录中的全部电话

提取表格记录中的全部电话文本,这里就涉及了五个 tr 标签,且都是最后一个td标签,所以这里先获取全部的tr,然后再拿第四个td标签即可,xpath如下:

print(html.xpath('.//table/tr/td[4]/text()'))

运行结果:['12138-111', '12138-112', '12138-113', '12138-114', '12138-115']

任务三:获取所有性别为男的所有姓名

这个任务稍微有点绕弯,因为性格和姓名的两个标签,不是父子级关系【用以前的方法,性别为父姓名为子是可以正常获取的】,而是同级再嵌套【姓名在a标签下面】的关系。

所以这里需要用的知识点是比较、父级跳出、获取同级的子级文本,一步步来,如下步骤:

1、第一步:获取性别为男的文本,xpath规则如下:

print(html.xpath('.//table/tr/td[text()="男"]/text()'))

运行结果:['男', '男', '男']

2、获取到之后,往外跳一层,得到对应的三个tr标签,xpath规则如下:

print(html.xpath('.//table/tr/td[text()="男"]/..'))

运行结果:[<Element tr at 0x1fd15543808>, <Element tr at 0x1fd15543848>, <Element tr at 0x1fd15543748>]【虽然结果看不出什么,但是从数量来看,是三个而不是五个】

3、到了这里就简单多了,因为姓名是第一个td标签下的a标签,直接获取下标1的文本值,简单明了

print(html.xpath('.//table/tr/td[text()="男"]/../td[1]/a/text()'))

运行结果:['张伟', '小贤', '小布']

任务四:仔细观察邮箱,获取所有是 haoren 邮箱的姓名

通过任务三的训练,四的难度更上一层楼,因为这里涉及一个前面没出现的判断——包含关系。

因为每个人的邮箱是不一样的,但是要获取邮箱中有haoren的邮箱,并输出它的归属人姓名,难点就在这个比较。

不过难不倒强大的Xpath,介绍一个函数:contains(字符串, 子串)。函数接收两参数,用当前情况来讲,前面是完整邮箱,后面是"haoren",就这么简单。

下面是具体使用示例,获取符合规格的好人邮箱:

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/text()'))

运行结果:['zhangwei@haoren.com', 'yifei@haoren.com', 'xiaoxian@haoren.com', 'meijia@haoren.com']

结局挺好,除了小布,其余都是好人

然后就跳到上级,获取他们的姓名了,xpath规则如下:

print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/../td/a/text()'))

运行结果:['张伟', '一菲', '小贤', '美嘉']

任务五:一条xpath,获取出张伟的全部信息【姓名、性别、邮箱、电话】

表格一般都是统一的规则,按理出牌,td里面套a是不太合规的,但是html语言是没有对错的,不关闭标签都是可以的。

既然任务有这条,那就用点不一样的思维来理解xpath:text()是获取文本的,一般使用,都是在没有子级标签中,这样可以防止空格、换行的问题。

但是姓名栏的td标签内,只有a标签,除了a标签空格都没有,这就很好办了,用双斜杠+text()来获取姓名。

而且除了姓名的td,双斜杠+text()这个用法,对其余三栏不会有任何问题,然后问题就顺顺滑滑的解决了

最终的xpath如下:

print(html.xpath('.//table/tr[2]/td//text()'))

结果['张伟', '男', 'zhangwei@haoren.com', '12138-111']

最终的代码和运行截图

html_str = """
<body>
<div> <table>
<tr>
<th>姓名</th>
<th>性别</th>
<th>邮箱</th>
<th>电话</th>
</tr>
<tr>
<td><a href="zhangwei">张伟</a></td>
<td>男</td>
<td>zhangwei@haoren.com</td>
<td>12138-111</td>
</tr>
<tr>
<td><a href="yifei">一菲</a></td>
<td>女</td>
<td>yifei@haoren.com</td>
<td>12138-112</td>
</tr>
<tr>
<td><a href="xiaoxian">小贤</a></td>
<td>男</td>
<td>xiaoxian@haoren.com</td>
<td>12138-113</td>
</tr>
<tr>
<td><a href="meijia">美嘉</a></td>
<td>女</td>
<td>meijia@haoren.com</td>
<td>12138-114</td>
</tr>
<tr>
<td><a href="xiaobu">小布</a></td>
<td>男</td>
<td>xiaobu@hundan.com</td>
<td>12138-115</td>
</tr> </table>
</div>
</body>
""" from lxml import etree html = etree.HTML(html_str)
# 任务一
print(html.xpath('.//table/tr[1]/th/text()'))
print(html.xpath('.//table/tr/th/text()'))
# 任务二
print(html.xpath('.//table/tr/td[4]/text()'))
# 任务三
print(html.xpath('.//table/tr/td[text()="男"]/text()'))
print(html.xpath('.//table/tr/td[text()="男"]/..'))
print(html.xpath('.//table/tr/td[text()="男"]/../td[1]/a/text()'))
# 任务四
print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/text()'))
print(html.xpath('.//table/tr/td[contains(text(),"haoren")]/../td/a/text()'))
# 任务五
print(html.xpath('.//table/tr[2]/td//text()'))

http://www.spbeen.com/p/bb16e09d-511f-4728-af49-752ced909ec1

xpath教程-逐层检索和全局检索 转的更多相关文章

  1. xpath教程三---逐层检索和全局检索

    本节主要介绍用xpath来描述html的层级关系 主要使用到的知识点如下: 单独的一个点 .,表示当前位置 两个点 ..,表示上一级父标签的位置 单独的一个斜杠 /,表示只检索下面一级 单独的两个斜杠 ...

  2. xpath教程-通过ID和Class检索 转

    通过ID和Class检索   必备知识点 在html中,id是唯一的 在html中,class是可以多处引用的 工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自 ...

  3. xpath教程二 ---- 通过ID和Class检索

    必备知识点 在html中,id是唯一的 在html中,class是可以多处引用的 工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests ...

  4. Hibernate检索策略与检索方式

    hibernate的Session在加载Java对象时,一般都会把鱼这个对象相关联的其他Java对象也都加载到缓存中,以方便程序的调用.但很多情况下,我们不需要加载太多无用的对象到缓存中,一来会占用大 ...

  5. [原创]java WEB学习笔记88:Hibernate学习之路-- -Hibernate检索策略(立即检索,延迟检索,迫切左外连接检索)

    本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用 内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱 ...

  6. 前端测试框架Jest系列教程 -- Global Functions(全局函数)

    写在前面: Jest中定义了很多全局性的Function供我们使用,我们不必再去引用别的包来去实现类似的功能,下面将列举Jest中实现的全局函数. Jest Global Functions afte ...

  7. xpath教程 2 - lxml库

    xpath教程 2 - lxml库 这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...

  8. xpath教程 1 - 什么是XPath

    xpath教程 1 什么是XPath? XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历. W3School官方 ...

  9. 雷林鹏分享:Ruby XML, XSLT 和 XPath 教程

    Ruby XML, XSLT 和 XPath 教程 什么是 XML ? XML 指可扩展标记语言(eXtensible Markup Language). 可扩展标记语言,标准通用标记语言的子集,一种 ...

随机推荐

  1. 串(string)

    题目描述 给定一个由小写字母组成的字符串s,每次你可以删去它的一个非回文子串, 求删成空串的最小次数. 输入输出格式 输入格式: 第一行一个整数 t 表示数据组数. 每组数据第一行一个整数 n表示字符 ...

  2. Java读取excel 支持xls 和 xlsx格式

    1.工具类public class InExcelTool { //根据指定位置单独读取一个 public static String getContent(String file, int page ...

  3. MATLAB 编译器的使用

    MATLAB 编译器的使用MATLAB 编译器(相应命令为 mcc)可生成独立应用程序.库.COM 对象.Excel 插件,218 MATLAB 实用教程它根据目标类型生成合适的包装器文件.包装器文件 ...

  4. Java 内存模型(Java Memory Model,JMM)

    基本概念 JMM 本身是一种抽象的概念并不是真实存在,它描述的是一组规范,通过这组规范定义了程序的访问方式 JMM 同步规定 线程解锁前,必须把共享变量的值刷新回主内存 线程加锁前,必须读取主内存的最 ...

  5. python一些小trick

    数据去重 lst = ['1','2','3','3'] lst = list(set(lst)) 不同根目录下引用另一个库 例如 |--a--a.py |--b--b.py 在b.py中调用库a.p ...

  6. Oracle 中 Start With 关键字

    Start With (树查询) 基本语法如下: SELECT ... FROM + 表名 WHERE + 条件3 START WITH + 条件1 CONNECT BY PRIOR + 条件2 -- ...

  7. is_mobile()判断手机移动设备

    is_mobile()判断手机移动设备.md is_mobile()判断手机移动设备 制作响应式主题时会根据不同的设备推送不同的内容,是基于移动设备网络带宽压力,避免全局接收pc端内容. functi ...

  8. webservice了解一下!!

    (1)什么是webservice? webservice是一种可以跨编程语言和跨平台进行远程调用的一种技术,是同步进行. webservice主要分为两种,一种是基于浏览器的瘦客户端应用程序,一种是基 ...

  9. Linux软件管理常用命令和选项

    rpm /var/lib/rpm:数据库目录 -ivh x:安装软件包x -Uvh x:升级或安装软件包x,如果没有安装x的旧版本,则安装x,否则删除x的旧版本后再安装x. -Fvh x:升级软件包x ...

  10. CISCO交换机STP实验(生成树协议)

    目录 一.前言:生成树协议(STP) 二.CISCO交换机STP命令汇总 三.运用STP搭建简单拓扑 四.实战:STP综合实验 五.结语 一.前言:生成树协议(STP) 计算机网络中,我们为了减少网络 ...