本文主要介绍正则re模块的常用函数。

1. 编译正则

import re
p = re.compile(r'ab*')
print '【Output】'
print type(p)
print p
print p.findall('abbc')
【Output】
<type '_sre.SRE_Pattern'>
<_sre.SRE_Pattern object at 0x7fe4783c7b58>
['abb']

正则编译的好处:速度更快。

2. re模块常用函数和方法

1. 不区分大小写匹配

p = re.compile(r'ab*',re.I)
print '【Output】'
print p.findall('AbBbc')
【Output】
['AbBb']

2. 字符串前加"r",反斜杠""就不会被作任何特殊处理

即:如果字符串前带"r",表示这是一个正则字符串,字符串里面用到的需要表示转义用途的""不用使用双重转义。

s = 'a+++'
p1 = re.compile('\++')
p2 = re.compile('\\++')
p3 = re.compile(r'\++')
# p4 = re.compile(r'\\++')
print '【Output】'
print p1.findall(s)
print p2.findall(s)
print p3.findall(s)
# print p4.findall(s)
# 用p4来匹配会报错:error: multiple repeat
【Output】
['+++']
['+++']
['+++']

3. 两个匹配函数

  • match():判断正则是否在字符串开始位置出现。

  • search():判断正则是否在字符串任何位置出现。

p = re.compile(r'aa')
print '【Output】'
print p.match('aabcd')
print p.match('bcaad')
print p.search('bcaad')
【Output】
<_sre.SRE_Match object at 0x7fe47020a098>
None
<_sre.SRE_Match object at 0x7fe47020a098>

4. 匹配查找函数

  • findall():找到正则匹配的所有子串,并作为列表返回。

  • finditer():找到正则匹配的所有子串,并作为迭代器返回。

p = re.compile(r'\d')
s = 'a1b2c3d'
print '【Output】'
print p.findall(s)
print p.finditer(s)
for ss in p.finditer(s):
print ss
print ss.group()
【Output】
['1', '2', '3']
<callable-iterator object at 0x7fe4701ecb90>
<_sre.SRE_Match object at 0x7fe47020a780>
1
<_sre.SRE_Match object at 0x7fe47020a6b0>
2
<_sre.SRE_Match object at 0x7fe47020a780>
3

5. MatchObject实例方法

p = re.compile(r'aa')
m = p.search('1aa2bb3aad')
print '【Output】'
print m.group()
print m.group(0)
#print m.group(1) # IndexError: no such group,因为当前只有一个分组
print m.start()
print m.end()
print m.span()
【Output】
aa
aa
1
3
(1, 3)
p = re.compile(r'age:(\d+),score:(\d+)')
info = 'age:15,score:98;age:20,score:100'
it = p.finditer(info) print '【Output】'
for x in it:
print 'info=({0}),age={1},score={2}'.format(x.group(0),x.group(1),x.group(2))
【Output】
info=(age:15,score:98),age=15,score=98
info=(age:20,score:100),age=20,score=100

6. 其他re顶级函数

(1) 匹配开头

re.match(pattern,str,flags = 0)

注:这里的pattern既可以直接使用正则字符串(r'...'),又可以使用编译后的正则(p = re.compile(r'...'))

(2) 匹配所有位置

re.search(pattern,str,flags = 0)

re.search()函数和re.match()函数的不同用法举例:

(3) 替换子串

re.sub(pattern,repl,str,count = 0,flags = 0)

print '【Output】'
print re.sub(r'a.b','xxx','acb,ayb,acd,aub,dd',2)
# re.sub()是产生一个新的字符串,使用re.sub()函数替换后,并不会对原字符串产生影响
【Output】
xxx,xxx,acd,aub,dd

替换子串与后项引用的结合使用举例:

可以看出re.sub()函数的第二个参数支持对前面的正则分组的后向引用,值得注意的是,第二个参数如果需要进行后向引用,那么必须写成raw字符串('r'开头的字符串),且字符串中的正则元字符(如'.'、'+'等)会被当成普通字符出现在结果中。

注:正则后向引用相关用法参见博文:python正则表达式系列(4)——分组和后向引用

(4) 替换子串

re.subn(pattern,repl,str,count = 0,flags = 0),作用同re.sub()函数,只不过subn()函数返回一个二元组,包含了替换后的字符串和替换次数。

print '【Output】'
print re.subn(r'a.b','xxx','acb,ayb,acd,aub,dd')
【Output】
('xxx,xxx,acd,xxx,dd', 3)

(5) 字符串分割函数

re.split(pattern, string, maxsplit=0, flags=0)

p = re.compile(r'[+\-*/]')
print '【Output】'
print re.split(p,'1+2-3*4/5')
【Output】
['1', '2', '3', '4', '5']

(6) 子串查找函数

re.findall(pattern, string, flags=0)

print '【Output】'
print re.findall(r'a+','abbaaccaaa')
【Output】
['a', 'aa', 'aaa']
# 分组查找:
print '【Output】'
print re.findall(r'age=(\d+)','age=1,age=21')
【Output】
['1', '21']

随机推荐

  1. row format delimited fields terminated by ','

    row format delimited fields terminated by ',' 以','结尾的行格式分隔字段

  2. Ubuntu vsftp复制文件到远端时错误,Permission denied

    Ubuntu 下复制文件到远端时错误,Permission denied 失败原因如下: (1)vsftp默认配置不允许上传文件 解决办法:修改配置文件 vi /etc/vsftpd.conf. 将& ...

  3. Linux下printf函数显示不同的颜色(转)

    Linux下printf函数显示不同的颜色 在学习Linux网络编程的时候做一个聊天系统,当时为了界面更漂亮点,于是搜索了下关于printf()函数的用法,给printf的输出加上些特效比如颜色,可以 ...

  4. redis中毒

    黑客用我们服务器挖矿了 新的一天的开始 周五早上刚到公司,同事来问我系统为啥打不开了?我第一反应就是肯定 Nginx 服务器挂了呗,立马就去登录服务器看看,但此时发现已经完全远程登录不上这台部署了 N ...

  5. cocos2d-2.0-x-2.0.4生成vs2010项目模板的解决方法

    cocos2d教学书籍还有网上好多博主都说仅仅要执行一下install-templates-msvc.bat这个批处理文件即可了.但是我按了半天vs2010就是不出现令小伙伴惊喜的cocos2d wi ...

  6. nodejs rar/zip加密压缩、解压缩

    1.shell/cmd命令行压缩解压缩 (1)zip压缩解压缩 zip压缩:zip -rP{密码} <目标文件.zip> <源文件> //默认覆盖现有文件 zip解压缩:zip ...

  7. 如何通过Mac 下的SVN拉取代码

    背景:今天入职了一家新单位,用的svn,我之前一直用的win下的git和svn,然后我现在用自己的mac开发,所以有了标题的疑问 博文由来:看了几个博客写的都很繁琐,看半天才能解决我的疑问,所以自己写 ...

  8. Qt 静态编译后的exe太大, 能够这样压缩.

    1. 下载PECompact 下载地址:http://download.csdn.net/download/sniper_bing/7669247 ,  不行大家就去baidu搜索下载就能够了这个是绿 ...

  9. Java 基础巩固,根深而叶茂

    #J2SE ##基础 八种基本数据类型的大小,以及他们的封装类. 八种基本数据类型,int ,double ,long ,float, short,byte,character,boolean 对应的 ...

  10. Win7 +Cuda9.0+cudnn7.0.5 tensorflow-gpu1.5.0 安装实战

    https://blog.csdn.net/gangeqian2/article/details/79358543 https://blog.csdn.net/tomato_sir/article/d ...