详解 Python3 正则表达式(二)
本文翻译自:https://docs.python.org/3.4/howto/regex.html
博主对此做了一些批注和修改 ^_^

使用正则表达式
现在我们开始来写一些简单的正则表达式吧。Python 通过 re 模块为正则表达式引擎提供一个接口,同时允许你将正则表达式编译成模式对象,并用它们来进行匹配。
批注:re 模块是使用 C 语言编写,所以效率比你用普通的字符串方法要高得多;将正则表达式进行编译(compile)也是为了进一步提高效率;后边我们会经常提到 “模式”,指的就是正则表达式被编译成的模式对象。
编译正则表达式
正则表达式被编译为模式对象,该对象拥有各种方法供你操作字符串,如查找模式匹配或者执行字符串替换。

re.compile() 也可以接受 flags 参数,用于开启各种特殊功能和语法变化,我们会在后边一一介绍。
现在我们先来看个简单的例子:

正则表达式作为一个字符串参数传给 re.compile() 。由于正则表达式并不是 Python 的核心部分,因此没有为它提供特殊的语法支持,所以正则表达式只能以字符串的形式表示。有些应用根本就不需要使用到正则表达式,所以 Python 社区的小伙伴们认为没有必要将其纳入 Python 的核心。相反,re 模块仅仅是作为 C 扩展模块包含在 Python 中,就像 socket 模块和 zlib 模块。
使用字符串来表示正则表达式保持了 Python 简洁的一贯风格,但也因此有一些负面影响,下边我们来谈一谈。
麻烦的反斜杠
上一篇中我们已经提到了,正则表达式使用 '\' 字符来使得一些普通的字符拥有特殊的能力(例如 \d 表示匹配任何十进制数字),或者剥夺一些特殊字符的能力(例如 \[ 表示匹配左括号 '[')。这会跟 Python 字符串中实现相同功能的字符发生冲突。
批注:挺拗口,接着看例子你就懂了~
现在的情况是,你需要在 LaTeX 文件中使用正则表达式匹配字符串 '\section' 。因为反斜杠作为需要匹配的特殊字符,所以你需要在它前边多加一个反斜杠来剥夺它的特殊功能。所以我们会把正则表达式的字符写成 '\\section' 。
但不要忘了,Python 在字符串同样使用反斜杠来表示特殊意义。因此,如果我们想将 '\\section' 完整地传给 re.compile(),我们需要再次添加两个反斜杠 ......
| 匹配字符 | 匹配阶段 |
| \section | 需要匹配的字符串 |
| \\section | 正则表达式使用 '\\' 表示匹配字符 '\' |
| \\\\section | 不巧,Python 字符串也使用 '\\' 表示字符 '\' |
简而言之,为了匹配反斜杠这个字符,我们需要在字符串中使用四个反斜杠才行。所以,在正则表达式中频繁地使用反斜杠,会造成反斜杠风暴,进而导致你的字符串极其难懂。
解决方法是使用 Python 的原始字符串来表示正则表达式(就是在字符串前边加上 r,大家还记得吧 ... ):
| 正则字符串 | 原始字符串 |
| “ab*” | r"ab*" |
| "\\\\section" | r"\\section" |
| "\\w+\\s+\\1" | r"\w+\s+\1" |
批注:强烈建议使用原始字符串来表达正则表达式。
实现匹配
当你将正则表达式编译之后,你就得到一个模式对象。那你拿它可以做什么呢?模式对象拥有很多方法和属性,我们下边列举最重要的几个来讲:
| 方法 | 功能 |
| match() | 判断一个正则表达式是否从开始处匹配一个字符串 |
| search() | 遍历字符串,找到正则表达式匹配的第一个位置 |
| findall() | 遍历字符串,找到正则表达式匹配的所有位置,并以列表的形式返回 |
| finditer() | 遍历字符串,找到正则表达式匹配的所有位置,并以迭代器的形式返回 |
如果没有找到任何匹配的话,match() 和 search() 会返回 None;如果匹配成功,则会返回一个匹配对象(match object),包含所有匹配的信息:例如从哪儿开始,到哪儿结束,匹配的子字符串等等。
接下来我们一步步讲解:

现在,你可以尝试使用正则表达式 [a-z]+ 去匹配各种字符串。
例如:

因为 + 表示匹配一次或者多次,所以空字符串不能被匹配。因此,match() 返回 None。
我们再尝试一个可以匹配的字符串:

在这个例子中,match() 返回一个匹配对象,我们将其存放在变量 m 中,以便日后使用。
接下来我们来看看匹配对象里边有哪些信息吧。匹配对象包含了很多方法和属性,以下几个是最重要的:
| 方法 | 功能 |
| group() | 返回匹配的字符串 |
| start() | 返回匹配的开始位置 |
| end() | 返回匹配的结束位置 |
| span() | 返回一个元组表示匹配位置(开始,结束) |
大家看:

由于 match() 只检查正则表达式是否在字符串的起始位置匹配,所以 start() 总是返回 0 。
然而,search() 方法可就不一样咯:

在实际应用中,最常用的方法是将匹配对象存放在一个局部变量中,并检查其返回值是否为 None 。
形式通常如下:
p = re.compile(...)
m = p.match('String goes here')
if m:
print('Match found:', m.group())
else:
print('No match')
有两个方法可以返回所有的匹配结果,一个是 findall(),一个是 finditer() 。
findall() 返回的是一个列表:

findall() 需要在返回前先创建一个列表,而 finditer() 则是将匹配对象作为一个迭代器返回:

批注:如果列表很大,那么返回迭代器的效率要高很多。
(本文完)
如果你喜欢这篇文章,请通过下方「评论」给我鼓励哦 ^_^
详解 Python3 正则表达式(二)的更多相关文章
- 详解 Python3 正则表达式(三)
上一篇:详解 Python3 正则表达式(二) 本文翻译自:https://docs.python.org/3.4/howto/regex.html 博主对此做了一些批注和修改 ^_^ 模块级别的函数 ...
- 详解 Python3 正则表达式(一)
本文翻译自:https://docs.python.org/3.4/howto/regex.html 博主对此做了一些批注和修改 ^_^ 正则表达式介绍 正则表达式(Regular expressio ...
- 详解 Python3 正则表达式(五)
上一篇:详解 Python3 正则表达式(四) 本文翻译自:https://docs.python.org/3.4/howto/regex.html 博主对此做了一些注明和修改 ^_^ 非捕获组和命名 ...
- 详解 Python3 正则表达式(四)
上一篇:详解 Python3 正则表达式(三) 本文翻译自:https://docs.python.org/3.4/howto/regex.html 博主对此做了一些注明和修改 ^_^ 更多强大的功能 ...
- Java 正则表达式详解_正则表达式
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
- JavaScript学习笔记-实例详解-类(二)
实例详解-类(二) //===给Object.prototype添加只读\不可枚举\不可配置的属性objectId(function(){ Object.defineProperty(Object ...
- (转)详解Python3 中hasattr()、getattr()、setattr()、delattr()函数及示例代码数
原文:https://www.jb51.net/article/138363.htm hasattr()函数 hasattr()函数用于判断是否包含对应的属性 语法: hasattr(object,n ...
- 详解JMeter正则表达式
详解JMeter正则表达式(1) 1.概览 JMeter中包含范本匹配软件Apache Jakarta ORO .在Jakarta网站上有一些关于它的文档,例如a summary of the pat ...
- Android开发:文本控件详解——TextView(二)文字跑马灯效果实现
一.需要使用的属性: 1.android:ellipsize 作用:若文字过长,控制该控件如何显示. 对于同样的文字“Android开发:文本控件详解——TextView(二)文字跑马灯效果实现”,不 ...
随机推荐
- java断言 assert
关于assert的用法网上教程很多,这里就不说了,只演示一下运行时开启断言的方法. public class A{ public static void main(String[] args){ Cl ...
- Hadoop HA集群的搭建
HA 集群搭建的难度主要在于配置文件的编写, 心细,心细,心细! ha模式下,secondary namenode节点不存在... 集群部署节点角色的规划(7节点)------------------ ...
- SQL点点滴滴_修改数据库的兼容级别
语法 ALTER DATABASE database_name SET COMPATIBILITY_LEVEL = { 80 | 90 | 100 } 参数 database_name 要修改的数据库 ...
- Beyond Compare 4的试用期过了怎么办
修改配置文件(C:\Users\gaojs\AppData\Roaming\BCompare\BCompare.ini)中的时间戳. 时间戳在线转换:https://tool.lu/timestamp ...
- yii2.0中url重写实现方法
在yii框架里有前台和后台页面,举例前台url重写. 控制器与路由 控制器以Controller作为后缀,继承自yii\web\Controller; 动作以action作为前缀,public访问修饰 ...
- GO语言(一)G语言自虐
package main import . "fmt" //notice 1 type testInt func(uint32) bool func isOdd(integer u ...
- 奇葩拿shell + 提权wind08r2奇葩拿shell + 提权wind08r2戏
0x01 小隐拿站篇 某省还是市级还是县级的空防部 先来刺探目录,拿起御剑, 啪啪啪 (鼓掌)后台出来了 试试弱口令 擦 需要管理员验证码,这个咋玩????这个注入都不用找了,就算注射出账号密 ...
- 笔记,记事软件(RedbookNote, lifeopraph)
许多人重视记日记是因为它是一种以天为基础保存个人或商务信息的良好方式:持续跟踪每天的生活和思想上的点点滴滴,组织和巩固记忆.思考.商业交易.电子邮件.账单.未来计划.联系人列表,甚至是秘密信息.Lin ...
- 【JAVA EE企业级开发四步走完全攻略】
本文是J2EE企业级开发四步走完全攻略索引,因内容比较广泛,涉及整个JAVA EE开发相关知识,这是一个长期的计划,单个发blog比较零散,所以整理此索引,决定以后每发一季JAVA EE blog后会 ...
- IOS AFN (第三方请求)
什么是AFN全称是AFNetworking,是对NSURLConnection.NSURLSession的一层封装虽然运行效率没有ASI高,但是使用比ASI简单在iOS开发中,使用比较广泛 AFN的g ...