Python3 如何优雅地使用正则表达式（详解二）

使用正则表达式

现在我们开始来写一些简单的正则表达式吧。Python 通过 re 模块为正则表达式引擎提供一个接口，同时允许你将正则表达式编译成模式对象，并用它们来进行匹配。

小甲鱼解释：re 模块是使用 C 语言编写，所以效率比你用普通的字符串方法要高得多；将正则表达式进行编译（compile）也是为了进一步提高效率；后边我们会经常提到“模式”，指的就是正则表达式被编译成的模式对象。

编译正则表达式

正则表达式被编译为模式对象，该对象拥有各种方法供你操作字符串，如查找模式匹配或者执行字符串替换。

>>> import re
>>> p = re.compile('ab*')
>>> p
<_sre.SRE_Pattern object at 0x...>

复制代码

re.compile() 也可以接受 flags 参数，用于开启各种特殊功能和语法变化，我们会在后边一一介绍。

现在我们先来看个简单的例子：

>>> p = re.compile('ab*', re.IGNORECASE)

复制代码

正则表达式作为一个字符串参数传给 re.compile()。由于正则表达式并不是 Python 的核心部分，因此没有为它提供特殊的语法支持，所以正则表达式只能以字符串的形式表示。（有些应用根本就不需要使用到正则表达式，所以 Python 社区的小伙伴们认为没有必要将其纳入 Python 的核心。）相反，re 模块仅仅是作为 C 的扩展模块包含在 Python 中，就像 socket 模块和 zlib 模块。

使用字符串来表示正则表达式保持了 Python 简洁的一贯风格，但也因此有一些负面影响，下边我们就来谈一谈。

麻烦的反斜杠

上一篇中我们已经提到了，正则表达式使用 '\' 字符来使得一些普通的字符拥有特殊的能力（例如 \d 表示匹配任何十进制数字），或者剥夺一些特殊字符的能力（例如 \[ 表示匹配左方括号 '['）。这会跟 Python 字符串中实现相同功能的字符发生冲突。

小甲鱼解释：挺拗口，接着看例子你就懂了~

现在的情况是，你需要在 LaTeX 文件中使用正则表达式匹配字符串 '\section'。因为反斜杠作为需要匹配的特殊字符，所以你需要再它前边加多一个反斜杠来剥夺它的特殊功能。所以我们会把正则表达式的字符写成 '\\section'。

但不要忘了，Python 在字符串中同样使用反斜杠来表示特殊意义。因此，如果我们想将 '\\section' 完整地传给 re.compile()，我们需要再次添加两个反斜杠......

匹配字符	匹配阶段
\section	需要匹配的字符串
\\section	正则表达式使用 '\\' 表示匹配字符 '\'
"\\\\section"	不巧，Python 字符串也使用 '\\' 表示字符 '\'

简而言之，为了匹配反斜杠这个字符，我们需要在字符串中使用四个反斜杠才行。所以，在正则表达式中频繁地使用反斜杠，会造成反斜杠风暴，进而导致你的字符串极其难懂。

解决方法是使用 Python 的原始字符串来表示正则表达式（就是在字符串前边加上 r，大家还记得吧...）：

正则字符串	原始字符串
"ab*"	r"ab*"
"\\\\section"	r"\\section"
"\\w+\\s+\\1"	r"\w+\s+\1"

小甲鱼解释：强烈建议使用原始字符串来表达正则表达式。

实现匹配

当你将正则表达式编译之后，你就得到一个模式对象。那你拿他可以用来做什么呢？模式对象拥有很多方法和属性，我们下边列举最重要的几个来讲：

方法	功能
match()	判断一个正则表达式是否从开始处匹配一个字符串
search()	遍历字符串，找到正则表达式匹配的第一个位置
findall()	遍历字符串，找到正则表达式匹配的所有位置，并以列表的形式返回
finditer()	遍历字符串，找到正则表达式匹配的所有位置，并以迭代器的形式返回

如果没有找到任何匹配的话，match() 和 search() 会返回 None；如果匹配成功，则会返回一个匹配对象（match object），包含所有匹配的信息：例如从哪儿开始，到哪儿结束，匹配的子字符串等等。

接下来我们一步步讲解：

>>> import re
>>> p = re.compile('[a-z]+')
>>> p
re.compile('[a-z]+')

复制代码

现在，你可以尝试使用正则表达式 [a-z]+ 去匹配各种字符串。

例如：

>>> p.match("")
>>> print(p.match(""))
None

复制代码

因为 + 表示匹配一次或者多次，所以空字符串不能被匹配。因此，match() 返回 None。

我们再尝试一个可以匹配的字符串：

>>> m = p.match('fishc')
>>> m
<_sre.SRE_Match object; span=(0, 5), match='fishc'>

复制代码

在这个例子中，match() 返回一个匹配对象，我们将其存放在变量 m 中，以便日后使用。

接下来让我们来看看匹配对象里边有哪些信息吧。匹配对象包含了很多方法和属性，以下几个是最重要的：

方法	功能
group()	返回匹配的字符串
start()	返回匹配的开始位置
end()	返回匹配的结束位置
span()	返回一个元组表示匹配位置（开始，结束）

大家看：

>>> m.group()
'fishc'
>>> m.start()
0
>>> m.end()
5
>>> m.span()
(0, 5)

复制代码

由于 match() 只检查正则表达式是否在字符串的起始位置匹配，所以 start() 总是返回 0。

然而，search() 方法可就不一样咯：

>>> print(p.match('^_^fishc'))
None
>>> m = p.search('^_^fishc')
>>> print(m)
<_sre.SRE_Match object; span=(3, 8), match='fishc'>
>>> m.group()
'fishc'
>>> m.span()
(3, 8)

复制代码

在实际应用中，最常用的方式是将匹配对象存放在一个局部变量中，并检查其返回值是否为 None。

形式通常如下：

p = re.compile( ... )
m = p.match( 'string goes here' )
if m:
print('Match found: ', m.group())
else:
print('No match')

复制代码

有两个方法可以返回所有的匹配结果，一个是 findall()，另一个是 finditer()。

findall() 返回的是一个列表：

>>> p = re.compile('\d+')
>>> p.findall('3只小甲鱼，15条腿，多出的3条在哪里？')
['3', '15', '3']

复制代码

findall() 需要在返回前先创建一个列表，而 finditer() 则是将匹配对象作为一个迭代器返回：

>>> iterator = p.finditer('3只小甲鱼，15条腿，还有3条去了哪里？')
>>> iterator
<callable_iterator object at 0x10511b588>
>>> for match in iterator:
print(match.span())
(0, 1)
(6, 8)
(13, 14)

复制代码

小甲鱼解释：如果列表很大，那么返回迭代器的效率要高很多。迭代器的相关知识请看：《零基础入门学习Python》048 | 魔法方法：迭代器

Python3 如何优雅地使用正则表达式（详解二）的更多相关文章

JavaScript正则表达式详解（一）正则表达式入门
JavaScript正则表达式是很多JavaScript开发人员比较头疼的事情,也很多人不愿意学习,只是必要的时候上网查一下就可以啦~本文中详细的把JavaScript正则表达式的用法进行了列表,希望 ...
JavaScript正则表达式详解（二）JavaScript中正则表达式函数详解
二.JavaScript中正则表达式函数详解(exec, test, match, replace, search, split) 1.使用正则表达式的方法去匹配查找字符串 1.1. exec方法详解 ...
Java 正则表达式详解_正则表达式
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
Django url配置正则表达式详解分组命名匹配命名URL 别名和URL反向解析命名空间模式
Django基础二之URL路由系统本节目录一 URL配置二正则表达式详解三分组命名匹配四命名URL(别名)和URL反向解析五命名空间模式一 URL配置 Django 1.11版本 ...
【python3+request】python3+requests接口自动化测试框架实例详解教程
转自:https://my.oschina.net/u/3041656/blog/820023 [python3+request]python3+requests接口自动化测试框架实例详解教程前段时 ...
(转)Python3.5——装饰器及应用详解
原文:https://blog.csdn.net/loveliuzz/article/details/77853346 Python3.5——装饰器及应用详解(下)----https://blog.c ...
(转)linux正则表达式详解
linux正则表达式详解 http://blog.csdn.net/wuliowen/article/details/64131815 1:什么是正则表达式: 简单的说,正则表达式就是处理字符串的方法 ...
Python3、setuptools、Pip3安装详解
Python3.setuptools.Pip3安装详解 2017年08月19日 18:58:47 安静的技术控阅读数:26002 版权声明:本文为博主原创文章,未经博主允许不得转载. http ...
Linux文本处理三剑客之grep及正则表达式详解
Linux文本处理三剑客之grep及正则表达式详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Linux文本处理三剑客概述 grep: 全称:"Global se ...
Django路由配置之正则表达式详解
正则表达式详解 urls.py from django.conf.urls import url from . import views urlpatterns = [ url(r'^articles ...

随机推荐

vmware压缩磁盘空间的方法
家里笔记本40G,可用空间怎么挤都只剩7G,从单位copy回来的linux虚拟机要10G,经检查实际使用空间5.7,也就是其他都是空余空间,可以释放掉.(只适合independent.Persiste ...
HDU 1083 Courses（最大匹配模版题）
题目大意: 一共有N个学生跟P门课程,一个学生可以任意选一门或多门课,问是否达成: 1.每个学生选的都是不同的课(即不能有两个学生选同一门课) 2.每门课都有一个代表(即P门课都被成功选过 ...
MapReduce执行过程源码分析（一）——Job任务的提交
为了能使源码的执行过程与Hadoop权威指南(2.3版)中章节Shuffle and Sort的分析相对应,Hadoop的版本为0.20.2. 一般情况下我们通过Job(org.apache.hado ...
app开发历程——android手机显示服务器端图片思路
以前自己都不知道怎么去显示服务器端的图片,还好在apkbus论坛上找到一个特别简单的例子.虽然一天天忙忙碌碌,但是自己内心其实有一种想逃的心里,说不定哪天就会冒出来. 1.首先服务器端图片这里的Im ...
HDOJ 1016 Prime Ring Problem素数环【深搜】
Problem Description A ring is compose of n circles as shown in diagram. Put natural number 1, 2, -, ...
Spark计算模型-RDD介绍
在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区.通 ...
linux下ssh使用和配置
常用格式:ssh [-l login_name] [-p port] [user@]hostname 更详细的可以用ssh -h查看. 举例不指定用户: ssh 192.168.0.11 指定用户: ...
SuppressWarnings的警告
简介:java.lang.SuppressWarnings是J2SE 5.0中标准的Annotation之一.可以标注在类.字段.方法.参数.构造方法,以及局部变量上.作用:告诉编译器忽略指定的警告, ...
更改navigationController push和pop界面切换动画
For Push: MainView *nextView=[[MainView alloc] init]; [UIView beginAnimations:nil context:NULL]; [UI ...
OC可变參数的函数实现va_start、va_end、va_list的使用
一.简单介绍我们常常在编程的时候看见类似这种代码,如图1.1 图1.1 或者是这种可变參数,如图1.2 图1.2 二.基本知识介绍在学习怎样写这样的格式的函数前,先简介几个经常使用的宏: 下面摘自 ...

Python3 如何优雅地使用正则表达式（详解二）

Python3 如何优雅地使用正则表达式（详解二）的更多相关文章

随机推荐

热门专题