在常见的文本匹配场景上,经常会需要用到一些像HTML这样的嵌套标签类型的文本匹配,经过多翻折腾,拼凑出了这样的一条语句

(<([\w]+)>((?1)|[\w\s])*</\2>)

如何理解?

要解析上面的语句是如何运行的,先来了解一下PCRE的反向分组引用机制

(?n)

以括号为单元,紧贴左括号以?号开始,接着引用分组的序号数字,这是反向引用分组的语法

例如,\[([\w]+)-(?1)\]将会匹配像[9-3],[9-9]这样的结构,因为(?1)引用了第一个括号的表达式也就是([\w]+),用来匹配接下来的字符

如何得知分组的序号数字?

例如,\[([\w]+(\s)?)-(.*)\]

分组1将会是([\w]+(\s)?),

而分组2将会是(\s),

想必你已经知道分组3将会是(.*)了。

接下来介绍一个另外的反向分组引用机制

'\n'

以反斜杠开头,接着引用分组的序号数字,这是反向引用分组结果的语法

和(?n)有什么不同?

稍微更改一下刚才的语句就知道了,

现在把\[([\w]+)-(?1)\]更改为\[([\w]+)-\1\],再来匹配一下[9-3],[9-9],没错,现在只能匹配到[9-9]这样的结构了,因为\1引用了第一个括号的表达式也就是([\w]+)匹配的结果用来匹配接下来的字符,而不是直接引用执行

现在回头看看片头给出的语句,已经不难理解了

来解析一番:

假设有以下一条HTML片段

<p> i am <i> genius </i> , do you agree? </p> <p> absulutely not </p>

引擎从第一个分组开始匹配(也就是整一条表达式)

(<)

(然后p,没有更多了,没关系,+不要求更多,继续往下)

(>,一切都很顺利)

(空字符,匹配了[\w\s],继续。。。)

。。。

当来到了下一个标签<i>,转折点在这里,<的出现,让原先一路往右的语句引用了整个式子,此时语句会率先执行向后引用的语句,然后等待匹配结果,当向后引用的语句再次遇到引用怎么办?显然,它的做法也会和它上一层的语句一样,直到匹配没有被继续引用,并且执行到了结尾,所有向后引用的公式会一层层的返回,这个情形类属于函数上的递归算法

改进一下就可以支持tag属性和img这种没有结束tag的标签

(<(div|p|table|tbody|tr|td|a)[\s\w='":;./#!]*>(?:(?1)|[^<]|<(?:img)\s+[^>]+)*<\/\2>)

支持更多的无结束标签tag

(<(?:(div|p|table|tbody|tr|td|a)|(img|meta|link))([\s\w='":;./#!-,]*)>(?(2)((?1)|[^<]|<(?3)(?4)[/]?>)*<\/\2>))

全程用到了哪些语法

#分组捕获
”(?n)“
#反向引用结果
”\n“
#消除分组捕获和反向引用,运用这种语法括号中的表达式将只匹配而不会被捕获,例如(?:[a])([b])\1,\1捕获的分组会是([b])
"(?:)"
#if 流程控制,运用这种语法将会判断先前出现的分组n是否触发了匹配,如果是则启用当前括号分组的规则,例如(a)?(?(1)bb)c,只有当(a)?成功匹配了,接下来才会匹配bb
"(reg)(?(n)trueReg|falseReg)"

备注:

JavaScript并不支持分组捕获(?n),但是支持反向引用结果

[正则表达式]PCRE反向分组引用的更多相关文章

  1. [正则表达式]PCRE反向分组引用(语法)

    正则表达式中,凡出现圆括号(),括号中的匹配内容就会被认为是一个分组: 根据括号从左边出现的顺序命名分组代号,分组代号由1到n(代号0通常被一些语言用来引用整个表达式匹配的结果,即使这个表达式没有分组 ...

  2. Django url配置 正则表达式详解 分组命名匹配 命名URL 别名 和URL反向解析 命名空间模式

    Django基础二之URL路由系统 本节目录 一 URL配置 二 正则表达式详解 三 分组命名匹配 四 命名URL(别名)和URL反向解析 五 命名空间模式 一 URL配置 Django 1.11版本 ...

  3. PHP 正则表达式(PCRE)

    PHP 正则表达式(PCRE) 正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串.将匹配的子串做替换或者从某个串中取出符合某个条件的子串 ...

  4. Python 正则表达式 利用括号分组

    如果想把区号从匹配的电话号码中分离,可以添加括号在正则表达式中创建分组,再使用group()方法,从一个分组中获取匹配的文本 正则表达式字符串中,第一个括号是第一组,第二个括号是第二组.向group( ...

  5. python正则表达式中的分组 group

    维基百科:http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C ...

  6. [正则表达式]PCRE环视功能

    设想一下这个问题,假设为了方便长串数字的阅读性,需要为其添加逗号作为分隔,需要怎么做呢? 2569836495 => 2,569,836,495 正则表达式的匹配通常是从左往右的,这导致无法使用 ...

  7. 廖雪峰Java9正则表达式-2正则表达式进阶-3分组匹配

    1.使用括号可以提取字符串 不加括号匹配电话号码 匹配成功后,如何提取想要的字符串? 使用(...)可以分组:"^(\d{3,4})\-(\d{6,8})$" 2.String.m ...

  8. java中的正则表达式捕获组与引用的概念

    今天群里有个人问,怎样用增则表达式匹配三角形的三边,其实只是要匹配三个数字而已,如 301 402 503 开始认为很简单,我就写了一个   "(([1-9]\\d?)\\s){2}$2&q ...

  9. 正则表达式-python-无捕获分组与分支选择

    无捕获分组 当你要将一部分规则作为一个整体对它进行某些操作,比如指定其重复次数时,你需要将这部分规则用 (?:) 把它包围起来. 分支条件 在正则表达式中,分支条件是一个很常用的条件. 满足条件A 或 ...

随机推荐

  1. C# 窗体缩放的时候同步改变控件的大小和字体

    最新在写个小程序,需要窗体填满各种尺寸的显示器,同时需要同步缩放控件的大小.于是就写了个类,简单的调用一下即可解决问题. 这个类可以同步缩放控件的位置,宽度高度,字体大小. 使用的时候在FormLoa ...

  2. 淘宝WAP版小BUG分析

    前几天发现的一个淘宝WAP版的小BUG,就是用桌面版chrome看的时候产品评价中的图片显示不出来,都是图裂了. 这是什么原因呢?图片为什么会显示不出来呢?淘宝的技术人员.测试人员不可能没发现啊.开启 ...

  3. 地理信息系统 - ArcGIS - 高/低聚类分析工具(High/Low Clustering ---Getis-Ord General G)

    前段时间在学习空间统计相关的知识,于是把ArcGIS里Spatial Statistics工具箱里的工具好好研究了一遍,同时也整理了一些笔记上传分享.这一篇先聊一些基础概念,工具介绍篇随后上传. 空间 ...

  4. HTML5之API

    HTML5就是牛,可以直接播放音视频,还可以作图: 一.HTML5中播放视频和音频: 加载时直接播放音频的方式:new Audio("BY2.mp3").play(); <d ...

  5. C语言初级进阶1

    1.数据类型1.1.基本数据类型数据类型分2类:基本数据类型+复合类型基本类型:char short int long float double复合类型:数组 结构体 共用体 类(C语言没有类,C++ ...

  6. VS 团队资源管理 强制解锁锁定文件

    故事是这样发生的: 以前有台电脑,在团队资源里看程序,可能冥冥中不小心按了个空格,so,文件被锁定 而我却没有发现 如果再给我一个机会,我只想说记得签入 然后,高潮来了 重装电脑 欣喜的装好新机子打开 ...

  7. float,double和decimal类型

    float:浮点型,含字节数为4,32bit,数值范围为-3.4E38~3.4E38(7个有效位) double:双精度实型,含字节数为8,64bit数值范围-1.7E308~1.7E308(15个有 ...

  8. Python操作Mysql之基本操作

    pymysql python操作mysql依赖pymysql这个模块 下载安装 pip3 install pymysql 操作mysql python操作mysql的时候,是通过”游标”来进行操作的. ...

  9. Git初级实践教程(图文)

    关于Git Git的由来 Linux 的创始人 Linus Torvalds 在 2005 年开发了 Git 的原型程序.当时,由于在 Linux 内核开发中使用的既有版本管理系统的开发方许可证发生了 ...

  10. mysql-data-dumper

    mysql-data-dumper mysql-data-dumper最近几天写的项目. 一开始仅仅想实现一个简单的数据导出工具,方便大家使用,提升团队成员的效率.后来结果想法天马行空,所以进度有点慢 ...