title: 正则表达式re.sub替换不完整的问题现象及其根本原因

toc: true

comment: true

date: 2018-08-27 21:48:22

tags: ["Python", "正则表达式"]

category: ["Python"]

问题描述

问题的起因来自于一段正则替换。为了从一段HTML代码里面提取出正文,去掉所有的HTML标签和属性,可以写一个Python函数:

import re

def remove_tag(html):
text = re.sub('<.*?>', '', html, re.S)
return text

这段代码的使用了正则表达式的替换功能re.sub。这个函数的第一个参数表示需要被替换的内容的正则表达式,由于HTML标签都是使用尖括号包起来的,因此使用<.*?>就可以匹配所有<xxx yyy="zzz"></xxx>

第二个参数表示被匹配到的内容将要被替换成什么内容。由于我需要提取正文,那么只要把所有HTML标签都替换为空字符串即可。第三个参数就是需要被替换的文本,在这个例子中是HTML源代码段。

至于re.S,在4年前的一篇文章中我讲到了它的用法:Python正则表达式中的re.S

现在使用一段HTML代码来测试一下:

import re

def remove_tag(html):
text = re.sub('<.*?>', '', html, re.S)
return text source_1 = '''
<div class="content">今天的主角是<a href="xxx">kingname</a>,我们掌声欢迎!</div>
''' text = remove_tag(source_1)
print(text)

运行效果如下图所示,功能完全符合预期

再来测试一下代码中有换行符的情况:

import re

def remove_tag(html):
text = re.sub('<.*?>', '', html, re.S)
return text source_2 = '''
<div class="content">
今天的主角是
<a href="xxx">kingname</a>
,我们掌声欢迎!
</div>
'''
text = remove_tag(source_2)
print(text)

运行效果如下图所示,完全符合预期。

经过测试,在绝大多数情况下,能够从的HTML代码段中提取出正文。但也有例外。

例外情况

有一段HTML代码段比较长,内容如下:

<img></span><span>遇见kingname</span></a ><a  ><span class='url-icon'>< img '></span><span >温柔</span></a ><a  ><span >#青南#</span></a > <br />就在这里…<br />我的小侯爷呢???

运行效果如下图所示,最后两个HTML标签替换失败。

一开始我以为是HTML里面的空格或者引号引起的问题,于是我把HTML代码进行简化:

<img></span><span>遇见kingname</span></a><a><span><img></span><span>温柔</span></a><a><span>#青南#</span></a><br/>就在这里…<br/>我的小侯爷呢

问题依然存在,如下图所示。

而且更令人惊讶的是,如果把第一个标签<img>删了,那么替换结果里面就少了一个标签,如下图所示。

实际上,不仅仅是删除第一个标签,前面任意一个标签删了都可以减少结果里面的一个标签。如果删除前面两个或以上标签,那么结果就正常了。

答疑解惑

这个看起来很奇怪的问题,根本原因在re.sub的第4个参数。从函数原型可以看到:

def sub(pattern, repl, string, count=0, flags=0)

第四个参数是count表示替换个数,re.S如果要用,应该作为第五个参数。所以如果把remove_tag函数做一些修改,那么结果就正确了:

def remove_tag(html):
text = re.sub('<.*?>', '', html, flags=re.S)
return text

那么问题来了,把re.S放在count的位置,为什么代码没有报错?难道re.S是数字?实际上,如果打印一下就会发现,re.S确实可以作为数字:

>>> import re
>>> print(int(re.S))
16

现在回头数一数出问题的HTML代码,发现最后多出来的两个<br>标签,刚刚好是第17和18个标签,而由于count填写的re.S可以当做16来处理,那么Python就会把前16个标签替换为空字符串,从而留下最后两个。

至此问题的原因搞清楚了。

这个问题没有被及早发现,有以下几个原因:

  1. 被替换的HTML代码是代码段,大多数情况下HTML标签不足16个,所以问题被隐藏。
  2. re.S是一个对象,但也是数字,count接收的参数刚好也是数字。在很多编程语言里面,常量都会使用数字,然后用一个有意义的大写字母来表示。
  3. re.S 处理的情况是<div class="123" \n> 而不是<div class="123">\n</div>但测试的代码段标签都是第二种情况,所以在代码段里面实际上加不加re.S效果是一样的。

正则表达式re.sub替换不完整的问题现象及其根本原因的更多相关文章

  1. 在VS中用正则表达式查找或替换

    2005VS和2008VS正则替换规则如下(2013VS不适合,不需要的同学可以直接跳到2013VS的操作办法): Example: 查找#incldue中带有gl开头的头文件的,用include.+ ...

  2. xcode中使用正则表达式来搜索替换代码

    有这样的需求: 类似于 GLOBAL_STR(@"请继续添加"); 这样的代码,需要批量修改为: GLOBAL_STR(@"请继续添加", nil); 这里使用 ...

  3. notepad++使用正则表达式的查找替换

    使用正则表达式可以很好地完成很多繁琐耗时的工作,以下抄录editplus正则表达式的使用,同样适用于notepad++:表达式 说明\t 制表符.\n 新行.. 匹配任意字符.| 匹配表达式左边和右边 ...

  4. String replaceAll(String regex,String str)满足正则表达式的部分替换为给定内容

    package seday02;/*** * String replaceAll(String regex,String str)* @author xingsir*/public class Rep ...

  5. Java基础之一组有用的类——使用正则表达式查找和替换(SearchAndReplace)

    控制台程序. 使用正则表达式执行查找和替换操作,只需要调用Matcher对象的find()方法,就可以调用appendReplacement()方法来替换匹配的子序列.在提供给方法的新StringBu ...

  6. JAVA正则表达式匹配,替换,查找,切割(转)

    import java.util.ArrayList; import java.util.regex.Matcher; import java.util.regex.Pattern; public c ...

  7. VisualStudio2010正则表达式查找和替换

    把 TRACE(_T("something etc."); 替换为 TRACE(_T("something etc."));查找内容:表达式:TRACE\(_T ...

  8. C#正则表达式之字符替换

    string strTest= "www.BaiDu.com",strRst=""; //忽略大小写,将strTest中的BaiDu替换为baidu Regex ...

  9. Java SE之正则表达式三:替换

    /** * * @author Zen Johnny * @date 2018年4月29日 下午4:31:07 * */ package demo.regex; public class RegexR ...

随机推荐

  1. IDE Fix Pack 6.4.2 released (bugfix release)

    IDE Fix Pack 6.4.2 addresses two bugs. It fixes an issue with the TCustomListBox.ResetContent patch ...

  2. Linux 驱动——Led驱动1

    led_drv.c驱动文件: #include <linux/module.h>#include <linux/kernel.h>#include <linux/init ...

  3. CentOS版Linux系统上运行ASP.NET应用

    一.安装: 1. 安装Apache Http Server yum install httpd2. 安装Mono yum install mono3. 安装Mono插件,用来处理ASP.NET请求 y ...

  4. Flask关于请求表单的粗浅应用及理解+简单SQL语句温习

    1.请求表单 请求表单的知识点是flask数据请求中很小的一部分,首先要了解一下GET和POST请求:http://www.w3school.com.cn/tags/html_ref_httpmeth ...

  5. js实现颜色渐变

    #grad { background: -webkit-linear-gradient(red, blue); /* Safari 5.1 - 6.0 */ background: -o-linear ...

  6. iOS 证书申请和使用详解(详细版)阅读

    对于iOS开发者来说,apple开发者账号肯定不会陌生.在开发中我们离不开它.下面我简单的为大家分享一下关于iOS开发中所用的证书相关知识. 第一部分:成员介绍 1.Certification(证书) ...

  7. Qthread的使用方法

    1:重载 run()函数 2:将对象移到Qthread对象中 Movetothread 该方法必须通过信号 -槽来激发.

  8. input[type='file']默认样式

    <input type="file" name="" id="" value="" /> 当input的ty ...

  9. A Language Modeling Approach to Predicting Reading Difficulty-paer

    Volume:Proceedings of the Human Language Technology Conference of the North American Chapter of the ...

  10. range的新发现

    正向打印的时候 for i in range(2): print(i) 打印的结果 0 1 反向的时候 for i in range(2,-1,-1): print(i) 2 1 0 for i in ...