python之re模块（正则表达式）

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

正则表达式中，普通字符匹配本身，非打印字符\n 、\t等，还有些特殊字符

特殊元字符

. 默认情况下，他匹配除换行符之外的任何字符，当有标志re.S 被指定时可以匹配任何字符。

^ 从字符串开头匹配

$ 匹配字符串的结尾或紧跟在字符串末尾的换行符之前

* 匹配0次，1次或者多次前面的字符。

？匹配0次或者1次前面的字符。

+ 匹配1次或者多次前面的字符、

{n} 前面的字符出现n次。

{n,m} 前面的字符至少出现n次，至多出现m次

| 模式选择符如 A|B A和B可以是任意RE，创建一个匹配A或B的正则表达式。'|'操作从不贪婪，一旦A匹配，B将不会被进一步测试

() 模式单元符

\ 用来逃避特殊字符（允许匹配像'*'，'?'等等字符），使用方法 \* \?

[] 原子表，用来指定一组字符，[abk]表示匹配‘a’，‘b’或‘k’，[a-z] 匹配任意一个小写字母，[A-Z]匹配任意一个大写，[0-9]任意一个数字

　　　　特殊字符在原子表失去特殊意义，如[.+?*()]匹配其中任意一个字符

　　　　[^.?*({] 原子表内以^开头表示不匹配在表中的字符

通用字符

\w 匹配热一个字母、数字或者下划线字符

\W 匹配除了字母、数字或者下划线的一个其他字符

\d 匹配一个10进制数

\D 匹配任何不是十进制数字的字符。

\s 匹配空白字符相当于 [ \t\n\r\f\v]

\S 匹配任何不是空白字符的字符相当于[^ \t\n\r\f\v]

\Z 匹配字符串末尾

.* 贪婪匹配模式，匹配尽可能多的

.*?非贪婪匹配模式，只匹配的第一个满足的就行

正则表达式常见函数

re.compile(pattern，flags = 0) 对正则表达式进行预编译，用在多次需要调用的场合，相当于一个模板放在那里，想用就用。

flags可以为以下几种

　　re.A（仅匹配ASCII码）， re.I（匹配时忽略大小写），re.L（区域依赖）， re.M（多行匹配），re.S（让.匹配任意字符）， re.U（Unicode匹配）和re.X（详细）表达

prog = re.compile(pattern)

result = prog.match(string)

#另一种写法

result = re.match(pattern, string)

re.match（pattern，string，flags = 0 ）从字符串开头处进行匹配

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist") #原始字符串符号（r"text"）使正则表达式保持原始格式，无特殊用法

>>> m.group(0)       # The entire match

'Isaac Newton'

>>> m.group(1)       # The first parenthesized subgroup.

'Isaac'

>>> m.group(2)       # The second parenthesized subgroup.

'Newton'

>>> m.group(1, 2)    # Multiple arguments give us a tuple.

('Isaac', 'Newton')

>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")

>>> m.group('first_name') #正则表达式使用(?P<name>...)语法，则groupN 参数也可以是通过其组名称标识组的字符串

'Malcolm'

>>> m.group('last_name')

'Reynolds'

>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")

>>> m.groups() #返回一个包含匹配所有子组的元组

('', '')

re.search（pattern，string，flags = 0 ）字符串整体匹配，返回第一个匹配成功的，match函数中的用法同样适用

#match.start（[ 组] ）match.end（[ 组] ）
>>> email = "tony@tiremove_thisger.net"

>>> m = re.search("remove_this", email)

>>> email[:m.start()] + email[m.end():]  #返回按组匹配的子串的开始和结束索引

'tony@tiger.net'

re.findall（pattern，string，flags = 0 ）匹配符合模式的多个，返回列表类型的结果　　

>>> text = "He was carefully disguised but captured quickly by police."

>>> re.findall(r"\w+ly", text)

['carefully', 'quickly']

re.sub（pattern，rep，string , max ）根据正则表达式来实现替换某些字符串，rep代表替换的内容，max，表示最多替换次数，不写就全部替换。

>>> def dashrepl(matchobj):

...     if matchobj.group(0) == '-': return ' '

...     else: return '-'

>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')

'pro--gram files'

>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.I)

'Baked Beans & Spam'

re.split（pattern，string，maxsplit = 0，flags = 0 ）根据模式拆分字符串

>>> re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

>>> re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

>>> re.split('[a-f]+', '0a3B9', flags=re.I)

['', '', '']

具体的案例稍后补充.........

python之re模块（正则表达式）的更多相关文章

【Python开发】Python之re模块 —— 正则表达式操作
Python之re模块 -- 正则表达式操作这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式 ...
Python之re模块 —— 正则表达式操作
这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突, ...
Python之re模块正则表达式
re模块用于对python的正则表达式的操作字符: .匹配除换行符以外的任意字符 \w匹配字母或数字或下划线或汉字 \s匹配任意空白符 \b匹配单词的开始或结束 ^匹配字符串的开始 $匹配字符串的结 ...
Python 之Re模块(正则表达式)
一.简介正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配. 二.正则表达式中常用的字符含义 1.普通字符和11个元字符: ...
第11.18节 Python 中re模块的匹配对象
匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的 ...
Python的regex模块——更强大的正则表达式引擎
Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组 Atomic grouping 占有优先量词 Possessive quantifi ...
Python中的re模块--正则表达式
Python中的re模块--正则表达式使用match从字符串开头匹配以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...
day18 python之re模块与正则表达式
正则表达式正则表达式,就是匹配字符串内容的一种规则. 官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串 ...
正则表达式与Python中re模块的使用
正则表达式与Python中re模块的使用最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...
python全栈开发之正则表达式和python的re模块
正则表达式和python的re模块 python全栈开发,正则表达式,re模块一正则表达式正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的 ...

随机推荐

Java实现Fibonacci取余
Description Fibonacci数列的递推公式为:Fn=Fn-1+Fn-2,其中F1=F2=1. 当n比较大时,Fn也非常大,现在我们想知道,Fn除以10007的余数是多少. Input 多 ...
Java实现洛谷 P1170 兔八哥与猎人
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...
Java实现寻找和为定值的多个数
1 问题描述输入两个整数n和sum,要求从数列1,2,3,-,n中随意取出几个数,使得它们的和等于sum,请将其中所有可能的组合列出来. 2 解决方案上述问题是典型的背包问题的应用,即先找出n个数 ...
Java实现洛谷 P1914 小书童——密码
import java.util.Scanner; public class Main { private static Scanner cin; public static void main(St ...
【Spring注解驱动开发】组件注册-@ComponentScan-自动扫描组件&指定扫描规则
写在前面在实际项目中,我们更多的是使用Spring的包扫描功能对项目中的包进行扫描,凡是在指定的包或子包中的类上标注了@Repository.@Service.@Controller.@Compon ...
Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别
适用范围案例备注小记 hadoop fs 使用范围最广,对象:可任何对象 hadoop dfs 只HDFS文件系统相关 hdfs fs 只HDFS文件系统相关(包括与 ...
根据现有Bitmap生成相同图案指定大小的新Bitmap
通过一张现有的Bitmap,画出一张同样的但是大小使我们指定的Bitmap 需求:直接createBitmap的话不允许生成的bitmap的宽高大于原始的,因此需要特定方法来将一张Bitmap的大小进 ...
深入理解JVM（③）各种垃圾收集算法
前言从如何判定对象消亡的角度出发,垃圾收集算法可以划分为"引用计数式垃圾收集"(Reference Counting GC)和"追踪式垃圾收集"(Tracin ...
redis的5种数据结构和基本操作
1.字符串(string) 1.1设置值 set key value [ex seconds] [px milliseconds] [nx|xx] 例如: 127.0.0.1:6379> set ...
python自如爬虫
如果你想入门数据分析,但是苦于没有数据,那就看下文如何用 10 行代码写一个最简单的自如房源爬虫首先我们通过分析看到自如手机版有个 url 如下:http://m.ziroom.com/list/a ...

python之re模块（正则表达式）

python之re模块（正则表达式）的更多相关文章

随机推荐

热门专题