正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

正则表达式中,普通字符匹配本身,非打印字符\n 、\t等,还有些特殊字符

特殊元字符

. 默认情况下,他匹配除换行符之外的任何字符,当有标志re.S  被指定时可以匹配任何字符。

^ 从字符串开头匹配

$ 匹配字符串的结尾或紧跟在字符串末尾的换行符之前

* 匹配0次,1次或者多次前面的字符。

匹配0次或者1次前面的字符。

+ 匹配1次或者多次前面的字符、

{n} 前面的字符出现n次。

{n,m} 前面的字符至少出现n次,至多出现m次

| 模式选择符  如 A|B  AB可以是任意RE,创建一个匹配AB的正则表达式 。'|'操作从不贪婪,一旦A匹配,B将不会被进一步测试

() 模式单元符

用来逃避特殊字符(允许匹配像'*''?'等等字符 ),使用方法 \*  \?

[] 原子表,用来指定一组字符,[abk]表示匹配‘a’,‘b’或‘k’,[a-z] 匹配任意一个小写字母,[A-Z]匹配任意一个大写,[0-9]任意一个数字

    特殊字符在原子表失去特殊意义,如[.+?*()]匹配其中任意一个字符

    [^.?*({] 原子表内以^开头表示不匹配在表中的字符

通用字符

\w  匹配热一个字母、数字或者下划线字符

\W 匹配除了字母、数字或者下划线的一个其他字符

\d 匹配一个10进制数

\D 匹配任何不是十进制数字的字符。

\s 匹配空白字符 相当于 [ \t\n\r\f\v]

\S 匹配任何不是空白字符的字符 相当于[^ \t\n\r\f\v]

\Z 匹配字符串末尾

.* 贪婪匹配模式 ,匹配尽可能多的

.*?非贪婪匹配模式,只匹配的第一个满足的就行

正则表达式常见函数

re.compile(patternflags = 0) 对正则表达式进行预编译,用在多次需要调用的场合,相当于一个模板放在那里,想用就用。

flags可以为以下几种

  re.A仅匹配ASCII码), re.I(匹配时忽略大小写),re.L(区域依赖), re.M(多行匹配),re.S让.匹配任意字符), re.U(Unicode匹配)和re.X(详细)表达

prog = re.compile(pattern)
result = prog.match(string)
#另一种写法
result = re.match(pattern, string)

re.match(patternstringflags = 0 从字符串开头处进行匹配

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist") #原始字符串符号(r"text")使正则表达式保持原始格式,无特殊用法
>>> m.group(0) # The entire match
'Isaac Newton'
>>> m.group(1) # The first parenthesized subgroup.
'Isaac'
>>> m.group(2) # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2) # Multiple arguments give us a tuple.
('Isaac', 'Newton')
>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.group('first_name') #正则表达式使用(?P<name>...)语法,则groupN 参数也可以是通过其组名称标识组的字符串
'Malcolm'
>>> m.group('last_name')
'Reynolds'
>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")
>>> m.groups() #返回一个包含匹配所有子组的元组
('', '')

re.search(patternstringflags = 0 字符串整体匹配返回第一个匹配成功的 ,match函数中的用法同样适用

#match.start([ ] )match.end([ ] )
>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():] #返回按匹配的子串的开始和结束索引
'tony@tiger.net'

re.findall(patternstringflags = 0 )匹配符合模式的多个返回列表类型的结果  

>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']

re.sub(pattern,rep,string , max 根据正则表达式来实现替换某些字符串,rep代表替换的内容,max,表示最多替换次数,不写就全部替换。

>>> def dashrepl(matchobj):
... if matchobj.group(0) == '-': return ' '
... else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'
>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.I)
'Baked Beans & Spam'

re.split(patternstringmaxsplit = 0flags = 0 根据模式拆分字符串

>>> re.split(r'\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split(r'(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split(r'\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.I)
['', '', '']

具体的案例稍后补充.........

python之re模块(正则表达式)的更多相关文章

  1. 【Python开发】Python之re模块 —— 正则表达式操作

    Python之re模块 -- 正则表达式操作 这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式 ...

  2. Python之re模块 —— 正则表达式操作

    这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突, ...

  3. Python之re模块正则表达式

    re模块用于对python的正则表达式的操作 字符: .匹配除换行符以外的任意字符 \w匹配字母或数字或下划线或汉字 \s匹配任意空白符 \b匹配单词的开始或结束 ^匹配字符串的开始 $匹配字符串的结 ...

  4. Python 之Re模块(正则表达式)

    一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配. 二.正则表达式中常用的字符含义 1.普通字符和11个元字符: ...

  5. 第11.18节 Python 中re模块的匹配对象

    匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的 ...

  6. Python的regex模块——更强大的正则表达式引擎

    Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组    Atomic grouping 占有优先量词    Possessive quantifi ...

  7. Python中的re模块--正则表达式

    Python中的re模块--正则表达式 使用match从字符串开头匹配 以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...

  8. day18 python之re模块与正则表达式

    正则表达式 正则表达式,就是匹配字符串内容的一种规则. 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串 ...

  9. 正则表达式与Python中re模块的使用

    正则表达式与Python中re模块的使用 最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...

  10. python全栈开发之正则表达式和python的re模块

    正则表达式和python的re模块 python全栈开发,正则表达式,re模块 一 正则表达式 正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的 ...

随机推荐

  1. java实现BellmanFord算法

    1 问题描述 何为BellmanFord算法? BellmanFord算法功能:给定一个加权连通图,选取一个顶点,称为起点,求取起点到其它所有顶点之间的最短距离,其显著特点是可以求取含负权图的单源最短 ...

  2. Java实现判断单联通(强连通缩点+拓扑排序)Going from u to v or from v to u

    Description In order to make their sons brave, Jiajia and Wind take them to a big cave. The cave has ...

  3. 【JAVA习题二十八】海滩上有一堆桃子,五只猴子来分。第一只猴子把这堆桃子凭据分为五份,多了一个,这只猴子把多的一个扔入海中,拿走了一份。第二只猴子把剩下的桃子又平均分成五份,又多了一个,它同样把多的一个扔入海中,拿走了一份,第三、第四、第五只猴子都是这样做的,问海滩上原来最少有多少个桃子?

    package erase; import java.util.Scanner; public class 猴子分桃 { public static void main(String[] args) ...

  4. 【个人博客 hexo】一个小时就搭好属于自己的博客

    对于经常需要发博客的小伙伴来说,拥有一个属于自己的博客网站,听起来是不是很酷. 今天我就来告诉大家,怎么搭建一个属于自己的博客网站,我们需要的就是使用hexo+github来搭建我们自己博客系统. 你 ...

  5. 详解 Flink DataStream中min(),minBy(),max(),max()之间的区别

    解释 官方文档中: The difference between min and minBy is that min returns the minimum value, whereas minBy ...

  6. Python面试进阶问题,__init__和__new__的区别是什么?

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天这篇是Python专题的第17篇文章,我们来聊聊Python当中一个新的默认函数__new__. 上一篇当中我们讲了如何使用type函数 ...

  7. 如何通过PR给视频添加字幕?

    第一步:将视频通过导出音频格式MP3 第二步:将音频MP3导入网易见外平台 第三步:在网易见外平台创建项目,进行语音转写如下所示: 第四步:将从网易见外平台到处的srt字母文件,打开后进行编码为utf ...

  8. qemu-guest-agent详解

    qemu guest agent简称qga, 是运行在虚拟机内部的一个守护程序(qemu-guest-agent.service),他可以管理应用程序,执行宿主机发出的命令. QEMU为宿主机和虚拟机 ...

  9. 关于时间格式 GMT,UTC,CST,ISO

    GMT: 格林尼治所在地的标准时间 UTC: 协调世界时,又称世界统一时间.世界标准时间.国际协调时间.由于英文(CUT)和法文(TUC)的缩写不同,作为妥协,简称UTC. 协调世界时是以原子时秒长为 ...

  10. Spring Data 教程 - Redis

    1. Redis简介 Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value ...