Python:bs4中 string 属性和 text 属性的区别及背后的原理
刚开始接触 bs4 的时候,我也很迷茫,觉得 string 属性和 text 属性是一样的,不明白为什么要分成两个属性。
html = '<p>hello world</p>'
soup = BeautifulSoup(html, 'lxml')
p = soup.p
print(p.string) # hello word
print(p.text) # hello word
输出的结果是一样的。但实际上,string 属性的返回类型是 bs4.element.NavigableString,而 text 属性的返回类型是 str。
print(type(p.string)) # <class 'bs4.element.NavigableString'>
print(type(p.text)) # <class 'str'>
不要小看了这点区别,看下面的示例:
html = '''<html>
<td>some text</td>
<td></td>
<td><p>more text</p></td>
<td>even <p>more text</p></td>
</html>''' soup = BeautifulSoup(html, 'lxml')
tds = soup.find_all('td') for td in tds:
print(td.string) for td in tds:
print(td.text)
string 属性的输出结果为:
some text
None
more text
None
text 属性的输出结果为:
some text more text
even more text
理解了 string 属性和 text 属性的返回类型,就可以明白结果为什么是这样的了。
第一项,返回都是 “some text”,这可以理解;
第二项,string 返回 None,因为不存在 NavigableString 节点;
第三项,text 返回的是标签的所有字符串连接成的字符串,所以是“more text”
第四项,bs4 的文档中指出:(地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#string)
如果 tag 只有一个 NavigableString 类型子节点,那么这个 tag 可以使用 .string 得到子节点。
如果一个 tag 仅有一个子节点,那么这个 tag 也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。
如果 tag 包含了多个子节点,tag 就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None。
那么自然 string 属性返回的结果是 None,text 属性返回的结果是“even more text”
另外,要注意的是 find 方法中的 text 参数,官方解释是:text 参数用于搜索字符串会找到 .string 方法与 text 参数值相符的tag。
也就是说,虽然参数名是 text,但实际上搜索的是 string 属性。
看下面的例子,我们需要查找到包含附件链接的<a>标签
html = '''<div>
<p>
附件:
<a href='xxx'>下载</a></p>
</div>
'''
用 string 属性来获取的话,代码如下:
soup = BeautifulSoup(html, 'lxml')
tab = soup.find(text=re.compile('附件'))
print(type(tab)) # <class 'bs4.element.NavigableString'>
print(tab) # 附件
可以看到获取到的是 NavigableString 标签,要获取<a>标签,可以配合 find_next_sibling() 方法。
如果使用使用 text 属性的话,就必须传递方法来实现,但结果可能就不是你想要的了
def txt(tag):
return re.search('附件', tag.text) is not None print(soup.find_all(txt))
结果如下,把每一层显示的都包含进来了。
[<html><body><div>
<p>
附件:
<a href="xxx">下载</a></p>
</div>
</body></html>, <body><div>
<p>
附件:
<a href="xxx">下载</a></p>
</div>
</body>, <div>
<p>
附件:
<a href="xxx">下载</a></p>
</div>, <p>
附件:
<a href="xxx">下载</a></p>]
相关博文推荐:
Python:bs4中 string 属性和 text 属性的区别及背后的原理的更多相关文章
- jquery html属性和text属性的区别
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
- C# 中 string.Empty、""、null的区别
原文C# 中 string.Empty."".null的区别 一.string.Empty 和 "" 1.Empty是string类中的一个静态的只读字段,它是 ...
- java中String new和直接赋值的区别
Java中String new和直接赋值的区别 对于字符串:其对象的引用都是存储在栈中的,如果是编译期已经创建好(直接用双引号定义的)的就存储在常量池中,如果是运行期(new出来的)才 ...
- MaskEdit组件的EditText属性和Text属性
MaskEdit组件主要是EditMask属性 是string属性. 掩码字符串EditMask属性分为3个部分,分别用分号隔开,形式是“XXXXX;X;X” 第一部分是掩码字符串的主要部分,它确定输 ...
- java中String、StringBuffer、StringBuilder的区别
java中String.StringBuffer.StringBuilder是编程中经常使用的字符串类,他们之间的区别也是经常在面试中会问到的问题.现在总结一下,看看他们的不同与相同. 1.可变与不可 ...
- C#中string.Empty和""、null的区别
string.Empty是string类的一个静态常量,而""则表示一个空字符串. string是一种特殊的引用类型,它的null值则表示没有分配内存. 使用ILSpy反编译Str ...
- Java中String类两种实例化的区别(转)
原文:http://blog.csdn.net/wangdajiao/article/details/52087302 一.String类的第一种方式 1.直接赋值 例:String str = &q ...
- Java基础——java中String、StringBuffer、StringBuilder的区别
(转自:http://www.cnblogs.com/xudong-bupt/p/3961159.html) java中String.StringBuffer.StringBuilder是编程中经常使 ...
- .NET 中String 和StringBuilder 以及他们的区别
stirng对象是不可变的,每次使用String类的方法进行运算时(赋值.拼接),都会在内存中生成新的字符串对象,这就要为新对象分配新的内存空间. StringBuilder 实例的 int Capa ...
随机推荐
- 打包前端WebSite到Go程序
打包前端WebSite到Go程序 Coolpy5发布在即,新版本要求服务端程序只是一个运行文件,经历了go的template无数坑后,最后还是放弃了,所以还是要把前端独立开发一个纯前端程序,但是go程 ...
- BZOJ_2038_[2009国家集训队]小Z的袜子(hose)_莫队
BZOJ_2038_[2009国家集训队]小Z的袜子(hose)_莫队 Description 作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿.终于有一天,小Z再也无 ...
- Spring Boot + Vue 前后端分离,两种文件上传方式总结
在Vue.js 中,如果网络请求使用 axios ,并且使用了 ElementUI 库,那么一般来说,文件上传有两种不同的实现方案: 通过 Ajax 实现文件上传 通过 ElementUI 里边的 U ...
- c#位运算基本概念与计算过程
前言 一些非常基础的东西,在实际工作中没有用到.很少用到.一旦遇到,又不知所云.最近遇到一个问题,把一个int16(short) .两个bool变量整合成一个int32(int),当听到这个要求时,我 ...
- “崩溃了?不可能,我全 Catch 住了” | Java 异常处理
前言 今天我们来讨论一下,程序中的错误处理. 在任何一个稳定的程序中,都会有大量的代码在处理错误,有一些业务错误,我们可以通过主动检查判断来规避,可对于一些不能主动判断的错误,例如 RuntimeEx ...
- Linux创建普通用户
声明:作者原创,转载注明出处. 作者:帅气陈吃苹果 1.创建用户,-m表示同时创建用户家目录 sudo useradd -m hadoop 2.为创建的hadoop用户设置密码 sudo passwd ...
- Wmyskxz文章目录导航附Java精品学习资料
前言:这段时间一直在准备校招的东西,所以一晃眼都好长时间没更新了,这段时间准备的稍微好那么一点点,还是觉得准备归准备,该有的学习节奏还是要有..趁着复习的空隙来整理整理自己写过的文章吧..好多加了微信 ...
- MySQL在删除表时I/O错误原因分析
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯数据库技术 发表于云+社区专栏 问题现象 最近使用sysbench测试MySQL,由于测试时间较长,写了一个脚本按prepare- ...
- jQuery拼图小游戏
jQuery拼图小游戏 最后样式 核心代码部分 <script type="text/javascript" > $(function () { $("td& ...
- 1.JAVA-Hello World
1.Java开发介绍 J2SE:Java 2 Platform Standard Edition(2005年之后更名为JAVA SE). 包含构成Java语言核心的类.比如:数据库连接.接口定义.数据 ...