Python:正则表达式 re 模块
正则是处理字符串最常用的方法,我们编码中到处可见正则的身影。
正则大同小异,python 中的正则跟其他语言相比略有差异:
1、替换字符串时,替换的字符串可以是一个函数
2、split 函数可以指定分割次数,这会导致有个坑
3、前项界定的表达式必须定长
下面详细描述下 re 模块的使用方法,其实,注意上面提到的三点差异就好
1、match
说明:
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回 None。
语法:
re.match(pattern, string, flags=0)
flags为可选标识,多个标识可以通过按位或 (|) 来指定。如 re.I | re.M 被设置成 I 和 M 标识:
|
修饰符 |
描述 |
|
re.I |
使匹配对大小写不敏感 |
|
re.L |
做本地化识别(locale-aware)匹配 |
|
re.M |
多行匹配,影响 ^ 和 $ |
|
re.S |
使 . 匹配包括换行在内的所有字符 |
|
re.U |
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. |
|
re.X |
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。 |
匹配成功re.match方法返回一个匹配的对象,可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。group() 或 group(0),返回整个正则表达式的匹配结果。
举例:
s= 'abc123abc'
print(re.match('[a-z]+', s)) # <_sre.SRE_Match object; span=(0, 3), match='abc'>
print(re.match('[a-z]+', s).group(0)) # abc
print(re.match('[\d]+', s)) # None
print(re.match('[A-Z]+', s, re.I).group(0)) # abc
print(re.match('[a-z]+', s).span()) # (0, 3)
2、search
说明:
re.search 扫描整个字符串并返回第一个成功的匹配。
语法:
re.search(pattern, string, flags=0)
匹配成功re.search方法返回一个匹配的对象,否则返回None。可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
举例:
s = 'abc123abc'
print(re.search('[a-z]+', s).group()) # abc
print(re.search('[a-z]+', s).span()) # (0, 3)
print(re.search('[\d]+', s).group()) #
print(re.search('[\d]+', s).span()) # (3, 6)
print(re.search('xyz', s)) # None
groupdict
groupdict 返回匹配到的所有命名子组的字典。
print(re.search('[a-z]+', s).groupdict()) # {}
print(re.search('(?P<letter>[a-z]+)(?P<num>\d+)', s).groupdict()) # {'num': '123', 'letter': 'abc'}
3、sub 和 subn
说明:
re.sub用于替换字符串中的匹配项。
re.subn返回一个元组,包含替换后的字符串及替换次数。
语法:
sub(pattern, repl, string, count=0, flags=0)
repl: 替换的字符串,也可为一个函数。
count: 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
举例:
s = 'abc123abc'
print(re.sub('[\d]+', '数字', s)) # abc数字abc
print(re.sub('[a-z]+', '字母', s, 1)) # 字母123abc
# 将匹配的数字乘以 2
def double(matched):
value = int(matched.group('value'))
return str(value * 2)
# repl是一个函数
print(re.sub('(?P<value>\d+)', double, s)) # abc246abc
print(re.subn('[\d]+', '数字', s)) # ('abc数字abc', 1)
print(re.subn('[a-z]+', '字母', s,)) # ('字母123字母', 2)
print(re.subn('[a-z]+', '字母', s, 1)) # ('字母123字母', 1)
4、compile
说明:
re.compile 用于编译正则表达式,生成一个正则表达式(Pattern)对象,供 match() 和 search() 这两个函数使用。
语法:
compile(pattern, flags=0)
举例:
s = 'abc123abc'
p = re.compile('[\d]+')
print(p.match(s, 4, 5).group(0)) # 2 从位置4开始匹配到位置5
print(p.search(s).group(0)) #
5、findall
说明:
re.findall 在字符串中查找正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
语法:
findall(pattern, string, flags=0)
举例:
s = 'abc123abc'
print(re.findall('[a-z]+', s)) # ['abc', 'abc']
print(re.findall('[h-n]+', s)) # []
6、finditer
说明:
finditer和 findall 类似,在字符串中查找正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
语法:
finditer(pattern, string, flags=0)
举例:
s = 'abc123def'
it = re.finditer('[a-z]+', s)
for match in it:
print(match.group())
7、split
说明:
re.split 方法按照能够匹配的子串将字符串分割后返回列表。
语法:
split(pattern, string, maxsplit=0, flags=0)
maxsplit:分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
举例:
print(re.split('a', '1A1a2A3', re.I)) # ['1A1', '2A3']
# 输出结果并未能区分大小写,这是因为re.split(pattern,string,maxsplit, flags)默认是四个参数,当我们传入的三个参数的时候,系统会默认re.I是第三个参数,所以就没起作用。
# 如果想让这里的re.I起作用,写成flags=re.I即可。
print(re.split('a', '1A1a2A3', flags=re.I)) # ['1', '1', '2', '3']
8、escape
说明:
re.escape对字符串里面的特殊字符串进行转义。
语法:
escape(pattern)
举例:
print(re.escape('www.dxy.cn')) # www\.dxy\.cn
9、正则
“(?P<name>…)”:分组,并将其命名为<name>。
“(?P=name)”:引用别名为<name>的分组匹配到的串。
10、前项(否定)界定中的特殊
正则中常用的前项界定(?<=exp)和前项否定界定(?<!exp)在 python 中会报错:look-behind requires fixed-width pattern,原因是 python 中前项界定的表达式必须是定长的,例如
(?<=aaa) # 正确
(?<=aaa|bbb) # 正确
(?<=aaa|bb) # 错误
(?<=\d+) # 错误
(?<=\d{3}) # 正确
Python:正则表达式 re 模块的更多相关文章
- python正则表达式Re模块备忘录
title: python正则表达式Re模块备忘录 date: 2019/1/31 18:17:08 toc: true --- python正则表达式Re模块备忘录 备忘录 python中的数量词为 ...
- Python面试题之Python正则表达式re模块
一.Python正则表达式re模块简介 正则表达式,是一门相对通用的语言.简单说就是:用一系列的规则语法,去匹配,查找,替换等操作字符串,以达到对应的目的:此套规则,就是所谓的正则表达式.各个语言都有 ...
- Python 正则表达式——re模块介绍
Python 正则表达式 re 模块使 Python 语言拥有全部的正则表达式功能,re模块常用方法: re.match函数 re.match从字符串的起始位置匹配,如果起始位置匹配不成功,则matc ...
- python正则表达式——re模块
http://blog.csdn.net/zm2714/article/details/8016323 re模块 开始使用re Python通过re模块提供对正则表达式的支持.使用re的一般步骤是先将 ...
- python 正则表达式re模块
#####################总结############## 优点: 灵活, 功能性强, 逻辑性强. 缺点: 上手难,旦上手, 会爱上这个东西 ...
- python正则表达式re模块详细介绍--转载
本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一样漂亮. 正则表达式使用反斜杆( ...
- python正则表达式-re模块的爱恨情仇
利用python的re模块,使用正则表达式对字符串进行处理 # 编辑者:闫龙 import re restr = "abccgccc123def456ghi789jgkl186000&quo ...
- python正则表达式-re模块
目录: 一.正则函数 二.re模块调用 三.贪婪模式 四.分组 五.正则表达式修饰符 六.正则表达式模式 七.常见的正则表达式 导读: 想要使用python的正则表达式功能就需要调用re模块,re模块 ...
- python -- 正则表达式&re模块(转载)
1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十 ...
- Python正则表达式re模块学习遇到的问题
Python正则表达式处理的组是什么? Python正则表达式处理中的匹配对象是什么? Python匹配对象的groups.groupdict和group之间的关系 Python正则表达式re.mat ...
随机推荐
- SQL功能分类
DDL 数据定义语言:创建表 ,库,列 DML 数据操作语言:用来操作数据库中的记录 DQL 数据查询语言 :用来查询数据 DCL 数据控制语言:定义访问权限和安全级别 —————————————— ...
- centOS7.3安装配置NFS服务
在安装和运行NFS服务中,发现了一个需要警惕的地方. 运行2个centOS7.3系统.由于前面一篇已经写了使用xshell进行远程,所以,直接远程进行操作: chen-01做为服务端,chen-02做 ...
- P2649 - 【NOIP2017】列队
Description Sylvia 是一个热爱学习的女孩子. 前段时间,Sylvia 参加了学校的军训.众所周知,军训的时候需要站方阵. Sylvia 所在的方阵中有 n×m 名学生,方阵的行数为 ...
- using Sysyem.Net.Http命名空间引用不了的解决方案
1.查看.Net Framework的框架是否是在4.5之上,如果不是要下载4.5之上的目标框架. 2.在引用器里面添加using System.Net.Http命名空间 选择项目列表中的“引用”-- ...
- 关于A2C算法
https://github.com/sweetice/Deep-reinforcement-learning-with-pytorch/blob/master/Char4%20A2C/A2C.py ...
- 我和python的初相识
认识Python是大二的选修 单纯只是想赚学分而已 后来觉得越来越有趣. 一.python简介 简单来说Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言.Python 的设 ...
- 微信小程序----没有 DOM 对象,一切基于组件化 ---- mpvue
封装好用的 类库 和 组件,复用且灵活度高 抽取相同的部分放在函数内部(组件内部) 抽取不同的部分放在形参(组件 props 传参,或者插槽) new Promise 运行时 初始化实例对象的状态为 ...
- R语言S3类的理解与构建
R语言类 R语言的类有S3类和S4类,S3类用的比较广,创建简单粗糙但是灵活,而S4类比较精细,具有跟C++一样严格的结构.这里我们主要讲S3类. S3类的结构 S3类内部是一个list,append ...
- 详解封装微信小程序组件及小程序坑(附带解决方案)
一.序 上一篇介绍了如何从零开发微信小程序,博客园审核变智障了,每次代码都不算篇幅,好好滴一篇原创,不到3分钟从首页移出来了.这篇介绍一下组件封装和我的踩坑历程. 二.封装微信小程序可复用组件 首先模 ...
- 什么是URL,URL格式
什么是URL: 互联网里有很多的网页,大家都需要能够互相访问,就比如在一栋大楼里,有很多的房间,不同房间里的人都想能去任意的其他房间里去,那怎么能够达到这样的想法呢? 很简单,每个房间都挂一个门牌号就 ...