Python正则表达式\W+和\W*匹配过程的深入分析

在学习re.split函数的处理过程中，发现执行如下语句及返回与老猿预想的不一致：

>>> re.split('\W*','Hello，world')

['', 'H', 'e', 'l', 'l', 'o', '', 'w', 'o', 'r', 'l', 'd', '']

而老猿期望的是[’’, ‘Hello’, ‘’, ‘world’, ‘’],结果差异很大。

我们再看使用组模式匹配的结果：

>>> re.split('(\W*)','Hello，world')

['', '', 'H', '', 'e', '', 'l', '', 'l', '', 'o', '，', '', '', 'w', '', 'o', '', 'r', '', 'l', '', 'd', '', '']

也不是老猿期望的：[’’,‘Hello’, ‘，’, ‘world’, ‘’]。

将上述匹配模式中的\W*改成\W+，来看看效果：

>>> re.split('\W+','Hello，world')

['Hello', 'world']

>>> re.split('(\W+)','Hello，world')

['Hello', '，', 'world']

>>>

这个效果与老猿预想一致。在老猿预想的里面，使用“\W*”和“\W+”的区别应该就是在搜索文本头和尾的处理上二者有区别，“\W*”应该比“\W+”只多头和尾匹配的空字符串，毕竟二者都是贪婪模式，只是“\W*允许0次重复”。为什么执行结果却大相径庭呢？

经过仔细思考，老猿认为正则的匹配过程有关，在贪婪模式下，老猿理解上述正则表达式的匹配基本处理方法如下：

所有匹配过程都是从搜索文本当前匹配到的位置（为了后续方便称为当前匹配位置）开始的，首次匹配就从搜索文本位置0开始，其后真正匹配过程每匹配一个字符匹配位置加一（前视断言、后视断言等不消耗搜索文本的方法除外）；
每次匹配时，都是从搜索文本当前匹配位置开始以类似切片的机制开始匹配：

1)切片的开始位置为当前位置，切片的结束位置从当前位置开始逐一增加（假设当前位置为n，则第一次切片类似n:n，也就是空字符串）；

2)每次切片都会验证是否切片后的内容能否匹配当前模式，如果能匹配，切片结束位置加一，按此顺序处理，直到切片不能匹配为止；

3)如果当前切片不能匹配，则匹配的搜索文本子串就是前一个切片（不妨称为匹配切片），如果前一个切片的起止位置相同则为空字符串，如果起始位置大于结束位置则没有匹配到，否则就是正常匹配;

4)匹配到空串或正常子串都认为匹配成功，当前匹配位置=匹配切片结束位置+1。

这样我们回头来看使用“\W*”和“\W+”来匹配单词“Hello”的过程，由于每个字符当前位置的0长切片都为空字符串，他们满足“\W*”匹配要求，而下个长度为1的切片是字母字符，不能满足匹配的要求，因此会认为单词的每个字母之间都会被空字符串分割，如果不接受这样的结果，使用”\W+”来匹配就可以。

关于阅读本文所需要使用的基础知识请参考：

1、关于“\W*”和“\W+”的含义请参考《第11.15节 Python正则表达式转义符定义的特殊序列》；

2、关于切片请参考《第3章 Python的数据类型第3.1节功能强大的 Python序列概述》；

3、关于正则表达式贪婪模式请参考：《第11.9节 Python正则表达式的贪婪模式和非贪婪模式》及《转：正则表达式之贪婪与非贪婪模式详解》；

4、关于re.split请参考《第11.22节Python 中re模块的split函数》。

老猿Python，跟老猿学Python!

博客地址：https://blog.csdn.net/LaoYuanPython

请大家多多支持，点赞、评论和加关注！谢谢！

Python正则表达式\W+和\W*匹配过程的深入分析的更多相关文章

Python正则表达式处理中的匹配对象是什么？
老猿才开始学习正则表达式处理时,对于搜索返回的匹配对象这个名词不是很理解,因此在前阶段<第11.3节 Python正则表达式搜索支持函数search.match.fullmatch.findal ...
第11.6节 Python正则表达式的字符串开头匹配模式及元字符“^”（插入符、脱字符）功能介绍
符号"^"为插入符,也称为脱字符,在Python中脱字符表示匹配字符串的开头,即字符串的开头满足匹配模式的要求.这个功能有点类似搜索函数match,只是这是通过搜索模式来指定,而m ...
第11.5节 Python正则表达式搜索任意字符匹配及元字符“.”（点）功能介绍
在re模块中,任意字符匹配使用"."(点)来表示, 在默认模式下,点匹配除了换行的任意字符.如果指定了搜索标记re.DOTALL ,它将匹配包括换行符的任意字符.关于搜索标记的含义 ...
第11.7节 Python正则表达式的字符串结尾匹配模式及元字符“$”功能介绍
符号"$"表示匹配字符串的结尾,即字符串的结尾满足匹配模式的要求. 在 MULTILINE 模式(搜索标记中包含re.MULTILINE,关于搜索标记的含义请见<第11.2节 ...
python 正则表达式替换字符串中匹配的字符
import re street = '21 Ramkrishna Road' print(re.sub('Road$', 'Rd.', street)) 将结尾的Road用Rd.替换
Python正则表达式书写容易碰到的陷阱：\W*和\W*？匹配过程遇到的问题
老猿在分析<Python正则表达式\W+和\W*匹配过程的深入分析>中的问题时,想到一个问题,如果"re.split('(\W*)','Hello,world')"的处 ...
Python正则表达式re.findall("[A-Za-z]([A-Za-z0-9])*[.]txt",'Abc2019.txt')的结果为什么是['9']
在<Python妙用re.sub分析正则表达式匹配过程>中老猿分析了findall函数的返回情况,老猿前一阵子在执行这个语句时: >>> re.findall(" ...
Python正则表达式re模块学习遇到的问题
Python正则表达式处理的组是什么? Python正则表达式处理中的匹配对象是什么? Python匹配对象的groups.groupdict和group之间的关系 Python正则表达式re.mat ...
Python正则表达式如何进行字符串替换实例
Python正则表达式如何进行字符串替换实例 Python正则表达式在使用中会经常应用到字符串替换的代码.有很多人都不知道如何解决这个问题,下面的代码就告诉你其实这个问题无比的简单,希望你有所收获. ...

随机推荐

slam-g2o安装失败的解决问题
1.安装依赖项libqglviewer-dev出问题原因: ubuntu16.04或者14.04不能直接sudo apt-get install libqglviewer-dev. 使用三个包来安装 ...
执行 yarn init报错，如何解决？
安装yarn以后执行yarn init 命令来初始化项目报错如下所示: 解决方法: 1.先用npm init初始化项目在初始化的最后一步 is this ok(yes)? 输入yes回车后,可能会 ...
内网渗透 day13-漏洞复现
漏洞复现目录 1. 永恒之蓝(445端口) 2. 手动微笑漏洞(21端口 vsftpd2.3.4版本) 3. ingres数据库DBMS后门(1524端口) 4. distcc漏洞(3632) 5. ...
第14章——高级IO函数
1.套接字超时套接字IO函数设置超时的方法有三种: (1)调用alarm. (2)select (3)使用SO_RECTIMEO和 SO_SNDTIMEO 选项上面三种方法适用于输入输出操作(re ...
还不懂Docker？一个故事安排的明明白白！
程序员受苦久矣多年前的一个夜晚,风雨大作,一个名叫Docker的年轻人来到Linux帝国拜见帝国的长老. "Linux长老,天下程序员苦于应用部署久矣,我要改变这一现状,希望长老你能帮帮我 ...
linux中5种方法过滤出文件夹ls -F ls -p grep、find快速查找过滤目录
1.ls -l , 根据颜色区分目录和文件2.ls -l, 以d开头的是目录 ls -l | grep "^d" 过滤以d开头的3.ls -l , 输入结果中第二列中大余1的是目录 ...
centos8 连接wifi
从官网下载的6G多的iso安装后 #ifconfig -a 如下 enp3s0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500l ...
MapReduce的工作流程
MapReduce的工作流程 1.客户端将每个block块切片(逻辑切分),每个切片都对应一个map任务,默认一个block块对应一个切片和一个map任务,split包含的信息:分片的元数据信息,包含 ...
MongoDB动态建表方案（官方原生驱动）
MongoDB动态建表方案(官方原生驱动) 需求前提:表名动态,表结构静态,库固定 1.导入相关依赖 <dependency> <groupId>org.mongodb< ...
面试半年，凭借这份JVM面试题，我终于拿到了字节跳动的offer！
内存区域虚拟机栈生命周期与线程相同,描述的是Java 方法执行的内存模型,每个方法在执行的时候都会创建一个栈帧,用于存取局部变量表.操作数栈.动态链接.方法出口等信息本地方法栈与虚拟机栈作用相似,只 ...

Python正则表达式\W+和\W*匹配过程的深入分析

Python正则表达式\W+和\W*匹配过程的深入分析的更多相关文章

随机推荐

热门专题