lxml中xpath获取当前节点所有子节点的文本方法

一、场景还原

现在假定有如下html代码：

<div class="content">

    <p>输入只有一行半径r.</p>

</div>

<div class="content">

    <p>输出有多行,每一行是跟输入对应面积.</p>

    <p>输出保留6位小数</p>

</div>

我需要获取每个content下的所有子节点的文本。形如这样

['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积. 输出保留6位小数']

二、解决方案

代码如下：

from lxml import etree

txt = """

<div class="content">

    <p>输入只有一行半径r.</p>

</div>

<div class="content">

    <p>输出有多行,每一行是跟输入对应面积.</p>

    <p>输出保留6位小数</p>

</div>

"""

html = etree.HTML(txt)

contents = html.xpath('//div[@class="content"]')

lst = []

for e in content:

    lst.append(e.xpath('string(.)'))

print(lst)

'''

输出如下：

['\n    输入只有一行半径r.\n', '\n    输出有多行,每一行是跟输入对应面积.\n    输出保留6位小数\n']

'''

其实这已经和我们想要的结果差不多了，对字符串稍作处理就是我们想要的结果了

lst = []

for e in content:

    lst.append(str(e.xpath('string(.)')).replace('\n','').strip())

print(lst)

'''

输出如下：

['输入只有一行半径r.', '输出有多行,每一行是跟输入对应面积.    输出保留6位小数']

'''

步骤1：找到父节点集合

contents = html.xpath('//div[@class="content"]')

这一句就是在匹配所有的class属性为content的div标签

步骤2：遍历父节点集合

lst = []

for e in content:

    lst.append(e.xpath('string(.)'))

print(lst)

遍历这个集合，并且利用xpath的string()方法获取当前节点所有子节点的文本

三、补充解释

不难看出其实上述步骤的核心就是用了一个xpath中的string()方法，那么这是一个什么方法呢？和我们平使用的text()方法有什么区别呢？

名称	说明
string()	返回所指元素的所有子节点文本内容所拼接的一个字符串
text()	返回所指元素的文本内容

string(.)中的.就是指的是当前元素啦，那么逐个遍历父元素，然后对他进行xpath语法string(,)，获得的不就是当前节点所有子节点的文本了吗～

捋一捋哦～

四、结语

感谢各位大大的耐心阅读~

创作不易，少侠请留步哇！人说，萍水相逢，你我遇见皆是缘分，不如点个赞再走呗｡◕ᴗ◕｡

lxml中xpath获取当前节点所有子节点的文本方法的更多相关文章

mysql7笔记----遍历节点所有子节点
mysql遍历节点的所有子节点 DELIMITER // CREATE FUNCTION `getChildrenList`(rootId INT) ) BEGIN ); ); SET sTemp = ...
通过xpath获取对应的整个子节点信息
1.页面解析接口 package com.dajiangtai.djt_spider.service; import com.dajiangtai.djt_spider.entity.Page; /* ...
selumium 中 xpath获取文本、属性正确写法
报错“The result of the xpath expression is: [object Attr]. It should be an element” yutube爬虫动态加载,需要用到s ...
获取元素节点的子节点 & 获取文本节点
1. 获取元素节点的子节点(**只有元素节点才有子节点): ①. childNodes 属性获取全部的子节点, 但该方法不实用. 因为如果要获取指定的节点 ...
treeview插件使用：根据子节点选中父节点
鄙人公司没有专门的前端,所以项目开发中都是前后端一起抡.最近用bootstrap用的比较频繁,发现bootstrap除了框架本身的样式组件外,还提供了多种插件供开发者选择.本篇博文讲的就是bootst ...
jacascript DOM节点——元素节点、属性节点、文本节点
前言:这是笔者学习之后自己的理解与整理.如果有错误或者疑问的地方,请大家指正,我会持续更新! DOM节点的三个种类:元素节点.文本节点.属性节点: 元素节点元素节点就是 HTML 标签元素,元素节点 ...
JavaScript的DOM编程--04--获取元素节点的子节点
获取元素节点的子节点(**只有元素节点才有子节点!!) 1). childNodes 属性获取全部的子节点, 但该方法不实用. 因为如果要获取指定的节点的指定子节点的集合, 可以直接调用元素节点的 ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...
python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...

随机推荐

docker搭建consul集群
防止自己忘了,做个笔记. 环境为两台主机,ip分别为: 192.168.2.9,192.168.2.7 首先在 192.168.2.9 上执行一下命令: docker run -d --name ...
Python练习--简单习题（也是一看就能够写出来的代码）
Python计算列表数字的和数字范围内的所有偶数(append) 移除列表中的多个元素(remove) 如何实现对列表的去重如何对简单列表进行排序 Python实现学生的排序11)
开源不易、安全慎行，中国软件如何走向文明？丨RTE 技术环境月报 202205
各位开发者小伙伴: 这里是 2022 年第 5 期的 RTE<技术环境月报>--致力于成为对大家"有用"的 Highlight 看板--每月初通过 RTC 开发者社区( ...
std常用类型
std::getline 文档 std::reverse 文档注意事项 reverse()返回值为void,是对原序列进行修改 std::vector 文档 emplace 和 emplace_ba ...
设计模式-用代理模式（Proxy Pattern）来拯救你的代码：打造可靠的程序设计
前言设计模式是一种高级编程技巧,也是一种通用的解决方案.它能在不同的应用场景中使用,它可以提高代码的可读性.可复用性和可维护性.设计模式的学习能提高我们的编程能力以及代码质量,同时也能提高我们的开发 ...
Linux环境下使用jsoncpp
目录 1. 下载jsoncpp 2. 生成静态库libjsoncpp.a 3. 复制相关文件至/usr/local下(方便编程) 4. CMakeList.txt编写(需要新增的) 1. 下载json ...
Win10系统总是锁屏关闭屏幕该怎么办?
Win10系统总是锁屏关闭屏幕该怎么办? 转目前发现最早之帖,自脚本之家:https://www.jb51.net/os/win10/398451.html 使用Win10系统很长时间了,最近发现 ...
QML和QT
推荐一些学习qml教程 Qt官方的QML教程: https://doc.qt.io/qt-5/qtqml-index.html,这是一个由Qt官方提供的完整的QML教程,包含了所有基本知识和高级语法. ...
【命令设计模式详解】C/Java/JS/Go/Python/TS不同语言实现
简介命令模式(Command Pattern)是一种数据驱动的设计模式,也是一种行为型设计模式.这种模式的请求以命令的形式包裹在对象中,并传给调用对象.调用对象再寻找合适的对象,并把该命令传给相应的 ...
R语言网络数据爬取
现在大家对爬虫的兴趣不断高涨,R和PYTHON是两个非常有力的爬虫工具.Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭.对于那些时间宝贵,又想从网上获取 ...