Python正则表达式进阶-零宽断言】的更多相关文章

1. 什么是零宽断言 有时候在使用正则表达式做匹配的时候,我们希望匹配一个字符串,这个字符串的前面或后面需要是特定的内容,但我们又不想要前面或后面的这个特定的内容,这时候就需要零宽断言的帮助了.所谓零宽断言,简单来说就是匹配一个位置,这个位置满足某个正则,但是不纳入匹配结果的,所以叫“零宽”,而且这个位置的前面或后面需要满足某种正则. 2.不同的零宽断言 零宽断言:正向和反向两类,每类又分为:预测先行和回顾后发: 正预测先行:简称正向先行断言,语法:(?=exp),它断言此位置的后面能匹配表达式…
零宽断言:用于查找特定内容之前或之后的内容,但并不包括特定内容本身.对于零宽断言来说,我认为最重要的一个概念是位置,零宽断言用于指定一个位置,这个位置应该满足一定的条件(它附近满足什么表达式),并且这个位置不是字符(因此匹配返回无结果),仅仅是一个位置,因此它们也被称为零宽断言零宽断言重点的这一个位置,是通过一个条件:这个位置附近(前或者后)存在或者不存在一个A(A可以是一个表达式)来决定的 请忘记它的各种名字,我们只记忆公式本身: (?=exp) :此位置后面匹配表达式exp(?<=exp):…
先看一组神奇的命令 [root@elastix82 tmp]# echo $html111<td>aaa</td>222[root@elastix82 tmp]# [root@elastix82 tmp]# echo $html| grep -oP '(?<=td>).*(?=</td)'aaa[root@elastix82 tmp]# grep支持正则表达式的 “零宽断言” http://baike.baidu.com/view/5201192.htm…
本文主要总结了python正则零宽断言(zero-length-assertion)的一些常用用法. 1. 什么是零宽断言 有时候在使用正则表达式做匹配的时候,我们希望匹配一个字符串,这个字符串的前面或后面需要是特定的内容,但我们又不想要前面或后面的这个特定的内容,这时候就需要零宽断言的帮助了.所谓零宽断言,简单来说就是匹配一个位置,这个位置满足某个正则,但是不纳入匹配结果的,所以叫"零宽",而且这个位置的前面或后面需要满足某种正则. 比如对于一个字符串:"finished…
使用小括号的时候,还有很多特定用途的语法.下面列出了最常用的一些: 表4.常用分组语法 分类 代码/语法 说明 捕获 (exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>exp) { python:  (?P<name>exp) } 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) (?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号 零宽断言 (?=exp) 匹配exp前面的位置 (?<=exp) 匹配exp后面…
版权声明:本文为博主原创文章,转载请附带原文网址http://www.cnblogs.com/wbchanblog/p/7411750.html ,谢谢! 提示:本文主要是讲解零宽断言,所以阅读本文需要有一定的正则表达式基础. 概念 我们知道元字符"\b"."^"."$"匹配的是一个位置,而且这个位置需要满足一定的条件(比如"\b"表示单词的边界),我们把这个条件称为断言或零宽度断言.这里有很重要的两个信息:一是断言实际上是某…
在使用正则表达式时,有时我们需要捕获的内容前后必须是特定内容,但又不捕获这些特定内容的时候,零宽断言就起到作用了 正则表达式零宽断言: 零宽断言是正则表达式中的难点,所以重点从匹配原理方面进行分析.零宽断言还有其他的名称,例如"环视"或者"预搜索"等等,不过这些都不是我们关注的重点. 我很强,我想直接看例子上手用 一.基本概念: 零宽断言正如它的名字一样,是一种零宽度的匹配,它匹配到的内容不会保存到匹配结果中去,最终匹配结果只是一个位置而已. 作用是给指定位置添加一…
在使用正则表达式时,有时我们需要捕获的内容前后必须是特定内容,但又不捕获这些特定内容的时候,零宽断言就起到作用了. (?=exp):零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp. #匹配后面为_path,结果为product 'product_path'.scan /(product)(?=_path)/ ps:这样_path就不会占用坐标,继续往后扫时 就可以从_继续扫描了eg:\[(.*?)\](?=(\[|$)) 用来匹配下文 ,就能起到框起 [] 要求结束符是][或…
1.后向引用 pattern = re.compile(r"(\w+)")#['hello', 'go', 'go', 'hello'] # pattern = re.compile(r"\b(\w+)\b\s+\b")#['hello', 'go', 'go'] # pattern = re.compile(r"\b(\w+)\b\s+\1\b")#['go'] 匹配重复的单词 str = 'hello hello go go come com…
(一)零宽断言 说明:本文的例子使用python描述      首先说明一下什么是零宽断言,所谓零宽断言就是并不去真正的匹配字符串文本,而仅仅是匹配对应的位置.      正则表达式中有很多这样的断言,常见的如匹配字符串或者行的起始位置 ^ 和 /A,匹配字符串或者行的末尾 $ 和 /Z,单词边界/B等等.这些简单的就不说了,今天主要说一下界定的使用方法(有些资料叫环式结构,名字而已,不重要).界定也是一种零宽断言,界定主要有四类:      1.前向界定(肯定顺序环视)(?=exp)     …
http://www.vaikan.com/regular-expression-to-match-string-not-containing-a-word/ 经常我们会遇到想找出不包含某个字符串的文本,程序员最容易想到的是在正则表达式里使用, ^(hede) 来过滤”hede”字串,但这种写法是错误的. 我们可以这样写: [^hede] ,但这样的正则表达式完全是另外一个意思,它的意思是字符串里不能包含 ‘h’,‘e’,‘d’三个但字符.那什么样的正则表达式能过滤出不包含完整“hello”字串…
今天在项目中用到了正则表达式,并且需要用负向零宽断言 (?<=exp) 进行筛选,结果运行时报 Invalid group 错,一开始以为是自己很久没用表达式写错了,查阅了一下正则语法后发现并没有写错. 到网上一搜才发现,JS不支持负向的 (?<=exp) 和 (?<!exp),只支持正向的(?=exp) 和 (?!exp).…
JavaScript正则表达式零宽断言 var str="abnsdfZL1234nvcncZL123456kjlvjkl"var reg=/ZL(\d{4}|\d{6})(?!\d)/igalert(str.match(reg)) 说白了,就是(?!\d)代表后面不接数字  <script>var str="aaa1986-192aaaaaa55555-aaaaaa1986aaaa51515aaa"var reg=/(\d{4,6})(?!\d*-)/…
我们学到的正则表达式匹配,都是有“宽度”的,使用 \w+. 匹配下面文本,会将 . 一同匹配: regular. expression. 如果不想匹配符号,只匹配一个位置,就要用到“零宽断言”(匹配宽度为零,满足一定的 条件/断言),零宽断言使用 (?=表达式) 的语法,例如 \w+(?=.),其中 (?=.) 表示 . 前面的位置(先行断言) regular. expression. 如果需要匹配后面的位置,如: .regular .expression 则要用到后发断言 (?<=.) ,使用…
正则 ?<=  和 ?= 用法   参考网址:http://baike.baidu.com/link?url=2zORJF9GOjU8AkmuHDLz9cyl9yiL68PdW3frayzLwWQhDvDEM51V_CcY_g1mZ7OPdcq8exFSiLusZwODAos5C_ http://www.cnblogs.com/xiashengwang/p/3988573.html  http://www.cnblogs.com/symbol441/articles/957950.html  文…
http://baike.baidu.com/link?url=sLfovpZmIcS5Uz_tiidXoVtjl30Tu3wARMfhnEcbgEGzsb8g1z7dvtGNXTulu1KDodmiuTAP5ODr_R5D2myeeq 零宽断言 1_1.(?=exp)   零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp 1_2.(?<=exp) 零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp 负向零宽 2_1.(?!exp)零宽度负预测先行断言,断言此位…
Python正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数. 本章节主要介绍Pyt…
由于正则表达式的内容比较多,所以单独写成一系列文章,主要内容是根据小甲鱼所讲的内容综合一下正则表达式的笔记. 贴上小甲鱼的<Python3 如何优雅地使用正则表达式>系列可观看的博客地址:http://www.cnblogs.com/LoveFishC/tag/Python3/ 正则表达式(Regular expressions 也称为 REs,或 regexes 或 regex patterns)本质上是一个微小的且高度专业化的编程语言.它被嵌入到 Python 中,并通过 re 模块提供给…
1.零宽断言 所谓零宽断言就是并不去真正的匹配字符串文本,而仅仅是匹配对应的位置. 正则表达式中有很多这样的断言,常见的如匹配字符串或者行的起始位置 ^ 和 /A,匹配字符串或者行的末尾 $ 和 /Z,单词边界/B等等.这些简单的就不说了,今天主要说一下界定的使用方法. 表达式结构: (?=exp) 匹配exp前面的位置,即某表达式后面是exp (?<=exp) 匹配exp后面的位置,即某表达式前面是exp (?!exp)  匹配后面跟的不是exp的位置,即某表达式后面不是exp (?<!ex…
贪婪量词   惰性量词    支配量词                      描述-------------------------------------------------------------------------------------  ?             ??             ?+                      可以出现0次或1次,但至多出现1次  *             *?            *+                  …
分组,即分组匹配,也称为捕获组,是正则中的一种比较重要的匹配方式.此外后向引用和分组相结合,可以写出很多复杂匹配场景的正则. 1. 分组 分组的方法:将子表达式用小括号括起来,如:(exp),表示匹配表达式exp,并捕获文本到自动命名的组里.举例: import re s = 'c1c b2b c3c' p = re.compile(r'c(\d)c') print '[Output]' print re.findall(p,s) [Output] ['1', '3'] s = 'a1b2 c3…
学习之前先来说一说一些概念 子项 1.正则的一个分组为一个子项,子项的匹配结果可以在这个子项之后被使用 2.子项是有顺序的,以(出现的位置顺序从左到右,第一个'()'--分组 包含的为第一子项,第二个为第二子项,一次类推) 3.可以在子项后面使用\n的形式来反向引用子项的匹配结果.(n为子项的序号,\n表示的是子项匹配到的结果,而不是子项规则本身) replace方法: //replace 参数用法 //1. 第一个参数为字符串 let testStr = "abc123"; cons…
比较详细Python正则表达式操作指南(re使用) Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式.Python 1.5之前版本则是通过 regex 模块提供 Emecs 风格的模式.Emacs 风格模式可读性稍差些,而且功能也不强,因此编写新代码时尽量不要再使用 regex 模块,当然偶尔你还是可能在老代码里发现其踪影.   就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模…
[编辑] 无捕获组和命名组 精心设计的 REs 也许会用很多组,既可以捕获感兴趣的子串,又可以分组和结构化 RE 本身.在复杂的 REs 里,追踪组号变得困难.有两个功能可以对这个问题有所帮助.它们也都使用正则表达式扩展的通用语法,因此我们来看看第一个. Perl 5 对标准正则表达式增加了几个附加功能,Python 的 re 模块也支持其中的大部分.选择一个新的单按键元字符或一个以 "\" 开始的特殊序列来表示新的功能,而又不会使 Perl 正则表达式与标准正则表达式产生混乱是有难度…
http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html 简介 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式.Python 1.5之前版本则是通过 regex 模块提供 Emecs 风格的模式.Emacs 风格模式可读性稍差些,而且功能也不强,因此编写新代码时尽量不要再使用 regex 模块,当然偶尔你还是可能在老代码里发现其踪影. 就其本质而言,正则表达式(或 RE)是一种小型的.高度专…
表达式 描述 正则表达式示例 符号 literal 匹配文本字符串的字面值literal foo rel1|rel2 匹配正则表达式rel1或rel2 foo|bar . 匹配任何字符(除了\n之外) b.b ^ 匹配字符串起始部分 ^Dear $ 匹配字符串终止部分 /bin/*sh$ * 匹配0次或者多次前面出现的正则表达式 [A-Za-z0-9]* + 匹配1次或者多次前面出现的正则表达式 [a-z]+\.com ? 匹配0次或者1次前面出现的正则表达式 goo? {N} 匹配N次前面出现…
原文出处:http://www.amk.ca/python/howto/regex/ 适用版本:Python 1.5 及后续版本 摘要 本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易懂.循序渐进. 本文可以从 http://www.amk.ca/python/howto 捕获 目录   1 简介 2 简单模式 2.1 字符匹配 2.2 重复 3 使用正则表达式 3.1 编译正则表达式 3.2 反斜杠的麻烦 3.3 执行匹配 3.4 模块…
本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮. 正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其他特殊的含义.这可能会和python字面意义上的字符串转义相冲突,这也许有些令人费解.比如,要匹配一个反斜杆本身,你也许要用'\\\\'来做为正则表达式的字符串,因为正则表达式要是\\,而字符串里,每个反斜杆都要写成\\. 你也可以在字符串前加上…
摘要 本文是通过Python的 re 模块来使用正则表达式的一个入门教程,和库参考手册的对应章节相比,更为浅显易懂.循序渐进. 本文可以从 http://www.amk.ca/python/howto 捕获 目录 目录 [隐藏] 1 简介 2 简单模式 2.1 字符匹配 2.2 重复 3 使用正则表达式 3.1 编译正则表达式 3.2 反斜杠的麻烦 3.3 执行匹配 3.4 模块级函数 3.5 编译标志 4 更多模式功能 4.1 更多的元字符 4.2 分组 4.3 无捕获组和命名组 4.4 前向…
正则表达式(简称RE)本质上可以看作一个小的.高度专业化的编程语言,在Python中可以通过re模块使用它.使用正则表达式,你需要为想要匹配的字符串集合指定一套规则,字符串集合可以包含英文句子.e-mail地址.TeX命令或者其它任何你希望的字符串.然后您能提这样的问题:“这个字符串匹配这个模式吗?”,或者“在这个字符串中存在这个模式的匹配吗?”.你也能使用正则表达式修改一个字符串或者分离它.正则表达式被编译到一系列的字节码,然后被C语言实现的匹配引擎执行.在一些高级应用场景,必须关注引擎怎么执…