正则函数

match、search、findall、finditer、split、sub

返回一个对象:match、search、finditer

返回一个列表:findall、split

其中match、search与findall都有两个匹配方式:简单匹配和分组匹配

1、match

格式

match(正则表达式,字符串,标志位)

match( r'xxx' , str , flags = 0 )

一般只用到了前两个参数

match( r'XXX' , str )

flags(标志位)用于修改正则表达式的匹配方式,常见的工作方式:

re.I    使匹配对大小写不敏感

re.L    做本地化识别(local-aware)匹配

re.M    多行匹配,影响^和$,不匹配换行符

re.S    使.匹配包含换行在内的所有字符(可能是改变元字符 . 的用法?)

……

匹配结果

简单匹配下,匹配成功返回一个Match对象,失败则返回None。

Match对象的group()返回匹配到的结果字符串(与正则表达式字符串完全对应的字符串)

常用的判断方法是:

import re

if re.match(正则表达式 , 测试字符串):
print('OK!')
else:
print('Failed!')

如果match的第一个参数是一个没有加任何正则表达式的规则的字符串,则默认匹配从测试字符串的开头匹配参数一中的字符串,匹配到了就返回一个Match对象,该Match对象的group()即为参数一中的字符串,group()和group(0)的效果相同。匹配不到就返回None。

例子

#单纯字符串匹配,只从开头匹配
#result1从开头能匹配上
result1=re.match('abc','abcdef')
#result2从开头匹配不上
result2=re.match('abc','1abc') result1
<re.Match object; span=(0, 3), match='abc'>
result1.group()
'abc'
print(result2)
None

分组匹配下:

m=re.match(带括号的正则表达式 , 字符串)

通过group和groups方法提取分组结果

举个例子说明如下:

import re

m=re.match(r'^(\d{3})-(\d{3,8})$','010-12345')

m.group(0)
'010-12345'
m.group(1)
'010'
m.group(2)
'12345'
m.groups()
('010', '12345')

group(0)是原始字符串,group(1)、group(2)、……表示第1、2、……个子串。此外groups()是一个包含了所有子串的tuple。

补充一个冷门知识点:

正则表达式中的?P<A1>格式:用于groupdict()方法以及之后模块6的替换sub()方法中

直接上例子:

str='hello world'
re1=re.compile(r'(?P<n1>h)(?P<n2>\w+)')
ret=re1.match(str) ret.groupdict()
{'n1': 'h', 'n2': 'ello'}

所以正则式中的?P<n2>\w+的意思就是声明了一个dict,其中一个Key-Value对为:Key为n2,Value为\w+匹配的结果。

通过groupdict()来查看这个dict。

2、search

re.search()方法扫描整个字符串,并返回第一个成功的匹配。如果匹配失败,则返回None。

与re.match()方法的区别:re.match()要求必须从字符串的开头进行匹配,如果字符串的开头不匹配,整个匹配就失效了。

re.search()并不要求从字符串的开头进行匹配,也就是说,正则表达式可以是字符串的一部分(与之区别的是match就要求正则表达式必须从头到尾完全与字符串匹配,否则就是不匹配)

格式与match类似:

re.search(正则表达式,字符串,标志位)

re.search(r'',str,flags=0)

例一:提取'Hello 123456789 Word_This is just a test 666 Test'中的数字

str='Hello 123456789 Word_This is just a test 666 Test'
re6=r'(\d+).*?(\d+)' #必须是非贪婪匹配*? 否则后一个()只会接收最后一个数字
ret=re.search(re6,str)
if ret:
for i in ret.groups():
print (i)
else:
print(ret)

结果:

123456789
666

例二:上例的字符串,只用(\d+)去匹配

str='Hello 123456789 Word_This is just a test 666 Test'
re7=r'(\d+)'
ret=re.search(re7,str)
if ret:
for i in ret.groups():
print (i)
else:
print(ret) #结果
123456789

重要!!!!!!!

正则串中有多少个括号(),匹配结果的groups中就有几个结果。另外,由于search只取第一个成功匹配的结果,所以即使后边还有可以匹配成功的字符串,也不计入groups中

3、findall

search只会返回第一个成功匹配的字符串,而findall会将所有匹配到的字符串,都放置在同一个List中。

①优先匹配原则

findall的正则式中的括号是优先匹配和分组匹配的标志,一个括号对应一个组。

findall与search、match等不同的是,它会优先取组里的内容,但是可以使用?:来关闭。

str='123 www.bing.com123www.google.com123'

re81=r'www.(bing|google).com'
re82=r'www.(?:bing|google).com' ret1=re.findall(re81,str)
ret2=re.findall(re82,str)
print(ret1,'\n',ret2) ['bing', 'google']
['www.bing.com', 'www.google.com']

当正则式为re81——www.(bing|google).com时,会只匹配括号中的内容,即bing|google,相当于正则式就是括号中的内容(★★★★),即 re81=r'bing|google'

如果想取消优先匹配,只需在(后边加上?:即可。

由于括号常与或|关联,所以在正则式中用到或(A|B)的格式时,一定要注意关闭优先匹配?:,然后再匹配,这样就能发挥或的作用了,就像上边的正则式re82。

这一点的总结:

a、当正则没有分组就是返回整个正则式的匹配

b、当正则式中有一个分组就是这个分组的匹配

c、多个分组的匹配方式与一个分组相同,但结果会将分组装到tuple中返回

关于c的举例:

content= 'email:12345678@163.com,...' \
'email:2345678@163.com,...' \
'email:345678@163.com' re10=re.compile(r'(\d+)@(\w+.com)')
ret_findall=re10.findall(content)
print(ret_findall)
[('12345678', '163.com'), ('2345678', '163.com'), ('345678', '163.com')]

因此当我们同时需要整个正则和各个分组的匹配,我们需要为整个正则式加括号。

re10=re.compile(r'((\d+)@(\w+.com))')

[('12345678@163.com', '12345678', '163.com'), ('2345678@163.com', '2345678', '163.com'), ('345678@163.com', '345678', '163.com')]

对整个正则式的匹配结果,是返回tuple的第一个元素。

②匹配顺序

一旦有字符被匹配到,就会把匹配到的字符拿走,然后再匹配剩下的字符,如下:

#匹配顺序
str='a2b3c4d5'
re8=r'\d+\w\d+'
ret=re.findall(re8,str)
print(ret) ['2b3', '4d5']

③匹配空值

当匹配规则为空''时,如果没有匹配到也会把空值放到结果中:

re8=r''
str='abcdef'
ret=re.findall(re8,str)
print(ret) ['', '', '', '', '', '', '']

所以写Python正则时,要尽量使正则不为空,所以正则式为一个单字符+元字符的形式时,尽量用+而不是*符(因为*表示{0,}——任意个字符)

下面给出一个推荐和不推荐的写法的例子

str='alex'
ret1=re.findall(r'\w+',str) #推荐用 +
ret2=re.findall(r'\w*',str) #不推荐用 *
print(ret1,'\n',ret2) ['alex']
['alex', '']

当然这里的推荐与不推荐,仅仅针对findall,无关match和search

④贪婪与非贪婪

这点与match、search倒是类似,非贪婪匹配也是在+后写个?,构成+?

例如:

ret1=re.findall(r'\d+','a23b')
ret2=re.findall(r'\d+?','a23b')
ret3=re.findall(r'a(\d+?)b','a23b')
print(ret1,'\n',ret2,'\n',ret3) ['23']
['2', '3']
['23']

值得注意的是第三种情况,当括号()位于a,b之间的时候?失效,整个匹配又变成了和第一种情况一样的贪婪匹配。

最后对于findall的总结:

1、findall会查找所有匹配结果,放在最后的List中

2、有字符串匹配到后,就会在原串中把匹配到的子串删去,再从剩下的串中匹配。

3、findall的()代表优先匹配,而不是分组匹配,更何况,findall本身就不支持分组匹配。

findall正则式里有括号,可以把该正则式只看做括号中的内容(详见①优先匹配)

4、非贪婪匹配如果夹在两个字符之间,就会失效变为贪婪匹配(详见④贪婪匹配)。

4、finditer

返回一个可迭代的MatchObject类型的Iterator:

p=re.compile(r'\d+')
str='12 dsnjfkbsfj1334jnkb3kj242'
w1=p.finditer(str)
w2=p.findall(str)
print(w1)
print(w2) <callable_iterator object at 0x000002553AD77408>
['12', '1334', '3', '242']

访问w1的方法是通过for循环迭代器实现:

for ret in w1:
print(ret.group(),ret.span()) 12 (0, 2)
1334 (14, 18)
3 (22, 23)
242 (25, 28)

MatchIterator对象的方法:

group()方法可以得到匹配到的结果;在有分组的情况下group(n)表示第n个分组的匹配结果

span()方法得到一个tuple,其中存储匹配结果在原串中的(首下标,尾下标+1)。

findall与finditer

学习自:https://blog.csdn.net/naipeng/article/details/94744621

相同点:

二者都可以获取所有匹配结果

不同点:

findall返回一个list;finditer返回一个MatchObject类型的Iterator

这也就决定了:

提取finditer的信息,要通过for循环,并调用每个对象的group()方法;提取findall的信息可以直接print,或是其他list操作方法

content= 'email:12345678@163.com,
email:2345678@163.com,
email:345678@163.com
'

需求1:提取所有邮箱信息,不需要分组

re10=re.compile('\d+@\w+.com')
ret1_finditer=re10.finditer(content)
for i in ret1_finditer:
print(i.group()) ret2_findall=re10.findall(content)
print(ret2_findall)
12345678@163.com
2345678@163.com
345678@163.com
['12345678@163.com', '2345678@163.com', '345678@163.com']

需求2:提取出所有电话号码和邮箱类型

re10=re.compile(r'(\d+)@(\w+.com)')
ret_finditer=re10.finditer(content)
ret_findall=re10.findall(content)
for i in ret_finditer:
print(i.group(1),' ',i.group(2)) print(ret_findall)
12345678   163.com
2345678 163.com
345678 163.com
[('12345678', '163.com'), ('2345678', '163.com'), ('345678', '163.com')]

可见,当有分组时,finditer通过group(n)访问第n个分组的匹配结果;而findall则是把每个组查找的结果综合为一个tuple。

5、分割——split

格式:

re.split(正则式,待分割字符串,maxsplit=0 , flags=0)

参数maxsplit——最大分割次数

返回一个list

①优先匹配原则

由于split和findall返回的都是所有元素的列表,因此他和findall一样具有优先匹配的特性。

②有组与无组

有组时,结果会包含处于分割位置的字符串,即分成[ 分割位置前 , 分隔位置处 , 分割位置后]

无组时,结果不含处于分割位置的字符串,即分成[ 分割位置前 , 分割位置后 ]

origin = 'hello alex bcd abcd lge acd 19'
#无组
re1=re.compile(r'a\w+')
#有组
re2=re.compile(r'(a\w+)')#组中包含a
re3=re.compile(r'a(\w+)')#组中不含a
print(re1.split(origin))
print(re2.split(origin))
print(re3.split(origin))

结果:

['hello ', ' bcd ', ' lge ', ' 19']
['hello ', 'alex', ' bcd ', 'abcd', ' lge ', 'acd', ' 19']
['hello ', 'lex', ' bcd ', 'bcd', ' lge ', 'cd', ' 19']

连续n个匹配串

如果分割位置在开头或者最后,则分割后的第一个分割串之前或者最后一个分割串之后会多一个空串;

如果开头或者结尾,有n个匹配串,就会在分割后的list中的开头或结尾多n个空串。

而在中间的连续n个匹配串,则会多n-1个空串(当只有一个匹配串时,没有空串),这一点也适用于[](见下文例子中的origin4和re2的组合)

origin1='aabaadecacaa'#首尾2个匹配串
origin2='abaadecaca' #首尾1个匹配串 中间连续2个匹配串
origin3='caaac' #中间连续3个匹配串
origin4='cabac' #用[]间接造成中间连续3个匹配串
re1=re.compile(r'a')
re2=re.compile(r'[ab]')
print(re1.split(origin1))
print(re1.split(origin2))
print(re1.split(origin3))
print(re2.split(origin4)) ['', '', 'b', '', 'dec', 'c', '', '']
['', 'b', '', 'dec', 'c', '']
['c', '', '', 'c']
['c', '', '', 'c']

消除串中所有异常字符

如果要消去一个字符串中的所有异常字符呢?用[]把全部异常字符包括就可以了。

比如str='a,b  ; c . e f  ,f g'

异常字符就包括:, ; . 空格

则我们的正则表达式就可以写为:r'[,;\.\s]+'

re1=re.compile(r'[,;\.\s]+')
re1.split(str) ['a', 'b', 'c', 'e', 'f', 'f', 'g']

6、替换——sub

格式:re.sub(被替换子串正则式,替换为的子串,str[ , count=0])

count为替换的次数,默认为0全部替换

返回替换后str

str='I get A,I got B,I gut C'
substr='hava'
re12=re.compile('g.t')
ret=[]
ret.append(re12.sub(substr,str))
ret.append(re12.sub(substr,str,count=0))
ret.append(re12.sub(substr,str,count=2))
ret.append(re12.sub(substr,str,3))
ret.append(re12.sub(substr,str,2))
for i in range(len(ret)):
print(ret[i])
I hava A,I hava B,I hava C
I hava A,I hava B,I hava C
I hava A,I hava B,I gut C
I hava A,I hava B,I hava C
I hava A,I hava B,I gut C

subn:调用格式与sub相同,只是最后返回结果中会统计替换次数。

temp=re.subn('g.t',substr,str)
print(temp)
('I hava A,I hava B,I hava C', 3)

其他

正则表达式匹配中文,英文字母和数字及_的写法!

中文标点符号的unicode编码

正则表达式(二)——Python中的相关方法的更多相关文章

  1. 正则表达式与Python中re模块的使用

    正则表达式与Python中re模块的使用 最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...

  2. 常用正则表达式与python中的re模块

    正则表达式是一种通用的字符串匹配技术,不会因为编程语言不一样而发生变化. 部分常用正则表达式规则介绍: . 匹配任意的一个字符串,除了\n * 匹配任意字符串0次或者任意次 \w 匹配字母.数字.下划 ...

  3. 【归纳】正则表达式及Python中的正则库

    正则表达式 正则表达式30分钟入门教程 runoob正则式教程 正则表达式练习题集(附答案) 元字符\b代表单词的分界处,在英文中指空格,标点符号或换行 例子:\bhi\b可以用来匹配hi这个单词,且 ...

  4. 正则表达式在python中的简单使用

    正则表达式独立与编程语言,基本上所有的编程语言都实现了正则表达式的相关操作.在Python中正则表达式的表现为re模块: import re 其操作有三个方法: my_string = "h ...

  5. js中正则表达式与Python中正则表达式的区别

    今天女票让我帮她写一个js中的正则,来提取电话号码,对于正则规则来说,js与python是基本没有区别的,重点的区别是在一些函数与方法中. python中的正则提取: import re str = ...

  6. 正则表达式与python中re模块

    一个网站,正则表达式入门的,很好 http://www.jb51.net/tools/zhengze.html 下面这个包含对python中re的介绍,也是很不错的http://www.w3cscho ...

  7. 自学Python二 Python中的屠龙刀(续)

    函数 秉承着一切皆对象的理念,函数作为对象,可以为其赋值新的对象名,也可以作为参数传递给其他函数! 正常的诸如空函数,默认参数等等我们就不提了,在这里着重提一下默认参数里面的坑和lambda函数. 当 ...

  8. 学以致用三十二-----python中函数的括号使用

    一直以来对python中函数括号的使用,有点分不清楚,到底什么时候用括号,什么时候不用括号,造成了很大看困惑. 今天来总结下. class aaa(): y = 'you' def __init__( ...

  9. 正则表达式在python中的应用

    一.常用符号 . :匹配任意字符,换行符\n除外   * :匹配前一个字符0次或无限次    ? :匹配前一个字符0次货1次 .* :贪心算法 .*? :非贪心算法 () :括号内的数据作为结果返回 ...

随机推荐

  1. Java安全之C3P0利用与分析

    Java安全之C3P0利用与分析 目录 Java安全之C3P0利用与分析 写在前面 C3P0 Gadget http base C3P0.getObject() 序列化 反序列化 Class.forN ...

  2. 如何快速写出高质量的 Go 代码?

    前言 团队协作开发中,必然存在着不同的代码风格,并且诸如 http body close,unhandled error 等低级错误不能完全避免.通过使用 ci lint 能够及早的发现并修复问题,提 ...

  3. 洛谷P1002过河卒(60分)

    逻辑没问题,运行超时,得分60 写注释了,不多解释 import java.util.Scanner; public class D1 { static int a,b,c,d,con; //棋盘大小 ...

  4. Node.js下载安装与配置(windows)

    一.Node.js下载 官网下载地址:下载 | Node.js 中文网 (nodejs.cn) 以Windows64位安装版为例,点击"Windows 安装包(.msi)"右侧的& ...

  5. Lesson4——Pandas DataFrame结构

    pandas目录 思维导图 1 简介 DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一. 2 认识DataFrame结构 Data ...

  6. salesforce零基础学习(一百一十一)custom metadata type数据获取方式更新

    本篇参考: https://developer.salesforce.com/docs/atlas.en-us.234.0.apexref.meta/apexref/apex_methods_syst ...

  7. 微服务 架构 php+go

    p.p1 { margin: 0; font: 13px "Helvetica Neue"; color: rgba(0, 162, 255, 1) } 微服务  架构  php+ ...

  8. lua语言:时间

    转载请注明来源:https://www.cnblogs.com/hookjc/ 时间库函数 1.用数值表示时间值 用数字值来表示时间值,实际上时间值的本质就是一个数字值.例如:d = 11312864 ...

  9. linux增加用户组,并在用户组下添加指定用户

    groupadd mysql #1 useradd -g mysql[用户组] mysql[用户名] #2 useradd mysql[用户名] -g mysql[用户组]

  10. NSTimer、CADisplayLink、GCD 三种定时器的用法 —— 昉

    在软件开发过程中,我们常常需要在某个时间后执行某个方法,或者是按照某个周期一直执行某个方法.在这个时候,我们就需要用到定时器. 在iOS中有很多方法完成定时器的任务,例如 NSTimer.CADisp ...