在学习re.split函数的处理过程中,发现执行如下语句及返回与老猿预想的不一致:

>>> re.split('\W*','Hello,world')
['', 'H', 'e', 'l', 'l', 'o', '', 'w', 'o', 'r', 'l', 'd', '']

而老猿期望的是[’’, ‘Hello’, ‘’, ‘world’, ‘’],结果差异很大。

我们再看使用组模式匹配的结果:

>>> re.split('(\W*)','Hello,world')
['', '', 'H', '', 'e', '', 'l', '', 'l', '', 'o', ',', '', '', 'w', '', 'o', '', 'r', '', 'l', '', 'd', '', '']

也不是老猿期望的:[’’,‘Hello’, ‘,’, ‘world’, ‘’]。

将上述匹配模式中的\W*改成\W+,来看看效果:

>>> re.split('\W+','Hello,world')
['Hello', 'world']
>>> re.split('(\W+)','Hello,world')
['Hello', ',', 'world']
>>>

这个效果与老猿预想一致。在老猿预想的里面,使用“\W*”和“\W+”的区别应该就是在搜索文本头和尾的处理上二者有区别,“\W*”应该比“\W+”只多头和尾匹配的空字符串,毕竟二者都是贪婪模式,只是“\W*允许0次重复”。为什么执行结果却大相径庭呢?

经过仔细思考,老猿认为正则的匹配过程有关,在贪婪模式下,老猿理解上述正则表达式的匹配基本处理方法如下:

  1. 所有匹配过程都是从搜索文本当前匹配到的位置(为了后续方便称为当前匹配位置)开始的,首次匹配就从搜索文本位置0开始,其后真正匹配过程每匹配一个字符匹配位置加一(前视断言、后视断言等不消耗搜索文本的方法除外);
  2. 每次匹配时,都是从搜索文本当前匹配位置开始以类似切片的机制开始匹配:

    1)切片的开始位置为当前位置,切片的结束位置从当前位置开始逐一增加(假设当前位置为n,则第一次切片类似n:n,也就是空字符串);

    2)每次切片都会验证是否切片后的内容能否匹配当前模式,如果能匹配,切片结束位置加一,按此顺序处理,直到切片不能匹配为止;

    3)如果当前切片不能匹配,则匹配的搜索文本子串就是前一个切片(不妨称为匹配切片),如果前一个切片的起止位置相同则为空字符串,如果起始位置大于结束位置则没有匹配到,否则就是正常匹配;

    4)匹配到空串或正常子串都认为匹配成功,当前匹配位置=匹配切片结束位置+1。

这样我们回头来看使用“\W*”和“\W+”来匹配单词“Hello”的过程,由于每个字符当前位置的0长切片都为空字符串,他们满足“\W*”匹配要求,而下个长度为1的切片是字母字符,不能满足匹配的要求,因此会认为单词的每个字母之间都会被空字符串分割,如果不接受这样的结果,使用”\W+”来匹配就可以。

关于阅读本文所需要使用的基础知识请参考:

1、关于“\W*”和“\W+”的含义请参考《第11.15节 Python正则表达式转义符定义的特殊序列》;

2、关于切片请参考《第3章 Python的数据类型 第3.1节 功能强大的 Python序列概述》;

3、关于正则表达式贪婪模式请参考:《第11.9节 Python正则表达式的贪婪模式和非贪婪模式》及《转:正则表达式之 贪婪与非贪婪模式详解》;

4、关于re.split请参考《第11.22节Python 中re模块的split函数》。

老猿Python,跟老猿学Python!

博客地址:https://blog.csdn.net/LaoYuanPython


请大家多多支持,点赞、评论和加关注!谢谢!

Python正则表达式\W+和\W*匹配过程的深入分析的更多相关文章

  1. Python正则表达式处理中的匹配对象是什么?

    老猿才开始学习正则表达式处理时,对于搜索返回的匹配对象这个名词不是很理解,因此在前阶段<第11.3节 Python正则表达式搜索支持函数search.match.fullmatch.findal ...

  2. 第11.6节 Python正则表达式的字符串开头匹配模式及元字符“^”(插入符、脱字符)功能介绍

    符号"^"为插入符,也称为脱字符,在Python中脱字符表示匹配字符串的开头,即字符串的开头满足匹配模式的要求.这个功能有点类似搜索函数match,只是这是通过搜索模式来指定,而m ...

  3. 第11.5节 Python正则表达式搜索任意字符匹配及元字符“.”(点)功能介绍

    在re模块中,任意字符匹配使用"."(点)来表示, 在默认模式下,点匹配除了换行的任意字符.如果指定了搜索标记re.DOTALL ,它将匹配包括换行符的任意字符.关于搜索标记的含义 ...

  4. 第11.7节 Python正则表达式的字符串结尾匹配模式及元字符“$”功能介绍

    符号"$"表示匹配字符串的结尾,即字符串的结尾满足匹配模式的要求. 在 MULTILINE 模式(搜索标记中包含re.MULTILINE,关于搜索标记的含义请见<第11.2节 ...

  5. python 正则表达式替换字符串中匹配的字符

    import re street = '21 Ramkrishna Road' print(re.sub('Road$', 'Rd.', street)) 将结尾的Road用Rd.替换

  6. Python正则表达式书写容易碰到的陷阱:\W*和\W*?匹配过程遇到的问题

    老猿在分析<Python正则表达式\W+和\W*匹配过程的深入分析>中的问题时,想到一个问题,如果"re.split('(\W*)','Hello,world')"的处 ...

  7. Python正则表达式re.findall("[A-Za-z]([A-Za-z0-9])*[.]txt",'Abc2019.txt')的结果为什么是['9']

    在<Python妙用re.sub分析正则表达式匹配过程>中老猿分析了findall函数的返回情况,老猿前一阵子在执行这个语句时: >>> re.findall(" ...

  8. Python正则表达式re模块学习遇到的问题

    Python正则表达式处理的组是什么? Python正则表达式处理中的匹配对象是什么? Python匹配对象的groups.groupdict和group之间的关系 Python正则表达式re.mat ...

  9. Python正则表达式如何进行字符串替换实例

    Python正则表达式如何进行字符串替换实例 Python正则表达式在使用中会经常应用到字符串替换的代码.有很多人都不知道如何解决这个问题,下面的代码就告诉你其实这个问题无比的简单,希望你有所收获. ...

随机推荐

  1. 18、Celery

    Celery 1.什么是Clelery Celery是一个简单.灵活且可靠的,处理大量消息的分布式系统 专注于实时处理的异步任务队列 同时也支持任务调度 Celery架构 Celery的架构由三部分组 ...

  2. 常用简单电脑bai快捷键大全

    Ctrl+C 复制.duCtrl+X 剪切.Ctrl+V粘贴.Ctrl+Z撤销.Ctrl+A全选所有文件.zhiDelete删除.daoShift+Delete避开回收站直接永久删除(不可找回).F3 ...

  3. ashx将datatable返回json数据

    1.直接使用JsonConvert.SerializeObject().将datatable放入  输出字符串 下面是测试:用webform+ashx作为接口. public class GetJso ...

  4. 【技术分享】小乖乖的 Linux/Ubuntu 历险记

    本文将同步发布于 WHU-TD 的博客. 这是一篇自带故事背景的博客. 总所周知,写的多,错的多,更何况一个刚刚接触 Linux 的小白.虽然只是介绍一些非常基础的内容,还是希望大家在发现错误时可以及 ...

  5. PF_PACKET&&tcpdump

    linux下抓包原理 linux下的抓包是通过注册一种虚拟的底层网络协议来完成对网络设备消息的处理权.当网卡接收到一个网络报文之后,它会遍历系统中所有已经注册的网络协议,当抓包模块把自己伪装成一个网络 ...

  6. linux帮助手册(help/man/info)

    linux本身有数据库(数据库名whatis)--man实际是从whatis数据库里查找信息. makewhatis 刚装系统,若man不能用,用makewhatis命令.整理whatis数据库. 当 ...

  7. Python_pycharm调试模式+使用pycharm给python传递参数

    一.通过pycharm 给python传递函数 1. 在pycharm终端中写入要获取的参数,进行获取 1>启动pycharm 中Terminal(终端) 窗口 点击pycharm左下角的图标, ...

  8. Xpath定位元素-一个例子

    前几天在群里面解决的问题,记录下来和大家分享 需要定位这个股份制企业 方法: # 首先需要单击下拉框弹出企业性质的下拉选项:然后用过Xpath定位元素 driver.find.element_by_c ...

  9. 回溯算法 - n 皇后问题

    (1)问题描述 在 n × n 格的棋盘上放置彼此不受攻击的 n 个皇后.按照国际象棋的规则,皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子.n 后问题等价于在 n × n 的棋盘上放置 n 个 ...

  10. Pinpoint 更改agentid 和 agent name 长度限制(Pinpoint系列二)

    本文基于 Pinpoint 2.1.0 版本 本文的内容为了更改 ID 和 Name 长度限制,因为有使用容器或者是服务名称确实比较长,所以根据业务场景,我们需要更改源码来实现这个. 具体更改,参考 ...