python--模块之re正则表达式
简介:
正则表达式本身是一个小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,我们可以通过直接调用来实现正则匹配。
正则表达式基础知识:
--普通字符
匹配自身 abc ----abc
--元字符
. :匹配任何字符(\n)换行符除外
例:a.a -----aba
\ :转义字符
例:a\tb ---a b
* :匹配前一个字符0或多次
例:a*b ----aaaab;b
+ :匹配前一个字符1次或多次
例:a+b ----aaaab;ab
? :匹配一个字符0次或1次
例:a?b ---b;ab
^ :匹配字符串开头,多行匹配每一行开头
例:^ab ---ab
$ :匹配字符串末尾,多行匹配每一行末尾
例:ab$ ---ab;cb
reg1 | reg2 :匹配正则表达式reg1或reg2
例:foo | bar ---foo;bar
{} : a{m}匹配字符m次,a{m,n}匹配字符m至n次,若省略n,则匹配m至无限次
例:a{1,2}b ---aab
[] :字符集,对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[^abc]表示取反,即非abc.
注:所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊含义。
例:a[bcd]e ---abcde
() :最基本的组是由一对圆括号括起来的正则式。
例:(abc){2}a(2|4)d ---abcabca4d
--特殊字符
\d :数字1~9
例:a\db ---a1b
\D:非数字[^\d]
例:a\Dc ----abc
\s:匹配任意空白字符[ \t\r\n\f\v]
例:a\sb ---a b
\S:非空白字符[^\s]
例:a\Sb ---abc
\w:匹配包括下划线在内的任意字符[A-Za-z0-9_]
例:a\wc ---abc
\W:匹配非单词字符[^A-Za-z0-9_]
例:a\Wb ---a b
\A:仅匹配字符串开头,同^
例:\Aabc ---abc
\Z:仅匹配字符串末尾,同$
例:abc\Z ----abc
\B:匹配\w和\W之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。
例:’er\b‘ 可以匹配’never‘ 中的’er‘,但不能匹配’verb‘中的’er‘
\B:[^\b]
例:a\Bbc ---abc
正则表达式的常用函数:
match和search一旦匹配成功,就是一个match object对象,而match object对象有以下方法:
group():返回被re匹配的字符串
可以一次输入多个组号,对应组号匹配的 字符串
start():返回匹配开始的位置
end():返回匹配结束的位置
spend():返回一个元组包含匹配(开始,结束)的位置
1、compile()
编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率)
re.compile(pattern,flags=0)
pattern:编译时用的表达式字符串。
flags:编译标志位,用于修正正则表达式的匹配方式,如:是否区分大小写,多行匹配等,常用的flags有:
re.S(DOTALL):使‘.’特殊字符匹配任何字符,包括换行;如果没有此标志,‘.’将匹配任何内容除换行符。
re.I(IGNORECASE):使匹配对大小写不敏感。
re.L(LOCALE):做本地化识别(locale-aware)匹配
re.M(MULTILINE):多行匹配,影响^和$
re.X(VERBOSE):该标志通过给予更灵活的格式以便将正则表达式写的更易于理解
re.U:根据Unicode字符集解析字符,这个标识影响\w,\W,\b,\B
2、match()
决定re是否在字符串刚开始的位置匹配。
注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符‘$’
格式:re.match(pattern,string,flags=0)
例:
print(re.match('com','comwww.runcomoob').group())
print(re.match('com','Comwww.runcomoob',re.I).group())
>>com
>>Com
3、search()
re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None
格式:re.search(pattern,string,flags=0)
例:
print(re.search('\dcom','4com5com').group())
>>4com
4,findall()
re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
格式:
re.findall(pattern,string,flags=0)
例1:
p=re.compile(r'\d+')
print(p.findall('h32h3jh2uhr23'))
>>['32', '3', '2', '23']
5、finditer()
搜索string,返回一个顺序访问每一个匹配结果(match)对象的迭代器。找到re匹配的所有字符串,并把它们作为一个迭代器返回。
格式:
re.finditer(pattern,string,flags=0)
例:
iter=re.finditer(r'\d+','12gjh232jkg34')
for i in iter:
print(i)
print(i.group())
print(i.span())
#返回迭代器对象;匹配数值;位置
>><_sre.SRE_Match object; span=(0, 2), match='12'>
12
(0, 2)
>><_sre.SRE_Match object; span=(5, 8), match='232'>
232
(5, 8)
>><_sre.SRE_Match object; span=(11, 13), match='34'>
34
(11, 13)
6、split()
按照能够匹配的字符串string分割后返回列表。
可以使用re.split来分割字符串,如:re.split(r'\s+',text);将字符串按空格分割成一个列表。
格式:
re.split(pattern,string,maxsplit=0,flags=0)
例:
print(re.split('\d+','ont1two2three3four4five5',3))
>>['ont', 'two', 'three', 'four4five5']
7、sub()
使用re替换string中每个匹配的字符串返回后的值。
格式:
re.sub(pattern,repl,string,count)
例:
text='ont1two2three3four4five5'
print(re.sub(r'\d+',' ',text))
>>ont two three four five
8、subn()
返回替换次数
格式:
subn(pattern,repl,string,count=0,flags=0)
例:
print(re.subn(r'\d',' ','ont1two2three3four4five5'))
>>('ont two three four five ', 5)
python--模块之re正则表达式的更多相关文章
- python模块之re正则表达式
41.python的正则表达式 1. python中re模块提供了正则表达式相关操作 字符: . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \W大写代表非\w ...
- Python模块之常用模块,反射以及正则表达式
常用模块 1. OS模块 用于提供系统级别的操作,系统目录,文件,路径,环境变量等 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("di ...
- python re 模块和基础正则表达式
1.迭代器:对象在其内部实现了iter(),__iter__()方法,可以用next方法实现自我遍历. 二.python正则表达式 1.python通过re模块支持正则表达式 2.查看当前系统有哪些p ...
- Python数据分析学习-re正则表达式模块
正则表达式 为高级的文本模式匹配.抽取.与/或文本形式的搜索和替换功能提供了基础.简单地说,正则表达式(简称为 regex)是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于 ...
- 【笔记】Python基础七:正则表达式re模块
一,介绍 正则表达式(RE)是一种小型的,高度专业化的编程语言,在python中它内嵌在python中,并通过re模块实现.正则表达式模式被编译成一系列的字节码,然后由C编写的匹配引擎执行. 字符匹配 ...
- Python编程中 re正则表达式模块 介绍与使用教程
Python编程中 re正则表达式模块 介绍与使用教程 一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...
- Python开发基础-Day14正则表达式和re模块
正则表达式 就其本质而言,正则表达式(或 re)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...
- Py修行路 python基础 (二十一)logging日志模块 json序列化 正则表达式(re)
一.日志模块 两种配置方式:1.config函数 2.logger #1.config函数 不能输出到屏幕 #2.logger对象 (获取别人的信息,需要两个数据流:文件流和屏幕流需要将数据从两个数据 ...
- python基础之 re(正则表达式)模块学习
今天学习了Python中有关正则表达式的知识.关于正则表达式的语法,不作过多解释,网上有许多学习的资料.这里主要介绍Python中常用的正则表达式处理函数. re.match re.match 尝试从 ...
- [Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
随机推荐
- ZT linux 线程私有数据之 一键多值技术
这个原作者的这个地方写错了 且他举的例子非常不好.最后有我的修正版本 pthread_setspecific(key, (void *)&my_errno); linux 线程私有数据之一键多 ...
- 什么是Github的元数据metadata以及如何备份github上的数据
github被微软收购后,提供的工具种类是越来越多了,大大提高了我们程序员日常工作的效率. 今天我偶然发现,我们可以一键把自己整个github上的数据,不仅仅是代码,还包含每个仓库里创建的issue都 ...
- ROC曲线手画
绘图过程很简单:给定m个正例子,n个反例子,根据学习器预测结果进行排序,先把分类阈值设为最大,使得所有例子均预测为反例,此时TPR和FPR均为0,在(0,0)处标记一个点,再将分类阈值依次设为每个样例 ...
- sql语句的group by 与 inner join
一.理解group by和聚合函数 先来看下表1,表名为test: 表1 执行如下SQL语句: 1 2 SELECT name FROM test GROUP BY name 你应该很容易知道运行的结 ...
- 一些jar包的作用
发项目的过程中,经常需要用到一写jar包,现在对其中的一写jar的作用,做下总结,也算是避免少引或者多引jar包吧,欢迎大家补充.谢谢. 1.apache的一写jar commons-collecti ...
- BZOJ 3680: 吊打XXX (模拟退火)
//yy:今天简单入门学了下ORZ 爬山算法:兔子朝着比现在高的地方跳去.它找到了不远处的最高山峰.但是这座山不一定是珠穆朗玛峰.这就是爬山算法,它不能保证局部最优值就是全局最优值. 模拟退火:兔子喝 ...
- (一)自定义ViewGroup绘制出菜单
从网上学习了hyman大神的卫星菜单实现,自己特意亲自又写了一编代码,对自定义ViewGroup的理解又深入了一点.我坚信只有自己写出来的知识才会有更加好的的掌握.因此也在自己的博客中将这个卫星菜单的 ...
- 9.spring:事务管理(下):声明式事务管理
声明式事务管理 sprin的声明式事务是管理AOP技术实现的事务管理,其本质是是对方法前后进行拦截,然后 在目标方法开始之前创建或者加入一个事务,在执行完成目标方法之后根据执行情况提交或者回滚事务. ...
- Kettle api 二次开发之 日志的保存
使用kettle做数据抽取的时候可以使用图形化的工具配置日志保存参数,选择数据库连接,输入日志表名称, 点击sql 执行对应的sql创建日志表即可. 点击保存之后,日志配置会保存在trans或者job ...
- OSTimeDlyHMSM函数
1.os_time.c里面 #if OS_TIME_DLY_HMSM_EN > 0 INT8U OSTimeDlyHMSM (INT8U hours, INT8U minutes, INT8U ...