15 python re 模块
1、基础知识
正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎
正则表达式的大致匹配流程:依次拿出表达式和文本中的字符比较,
如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。
常用的表达式规则
'.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$' 匹配字符结尾, 若指定flags MULTILINE ,re.search('foo.$','foo1\nfoo2\n',re.MULTILINE).group() 会匹配到foo1
'*' 匹配*号前的字符0次或多次, re.search('a*','aaaabac') 结果'aaaa'
'+' 匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?' 匹配前一个字符1次或0次 ,re.search('b?','alex').group() 匹配b 0次
'{m}' 匹配前一个字符m次 ,re.search('b{3}','alexbbbs').group() 匹配到'bbb'
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配, re.search("(abc){2}a(123|45)", "abcabca456c").group() 结果为'abcabca45' '\A' 只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的,相当于re.match('abc',"alexabc") 或^
'\Z' 匹配字符结尾,同$
'\d' 匹配数字0-9
'\D' 匹配非数字
'\w' 匹配[A-Za-z0-9]
'\W' 匹配非[A-Za-z0-9]
's' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t' '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","
re的匹配语法有以下几种
re.match 从头开始匹配
re.search 匹配包含
re.findall 把所有匹配到的字符放到以列表中的元素返回
re.split 以匹配到的字符当做列表分隔符
re.sub 匹配字符并替换
re.fullmatch 全部匹配
2、re方法:
2.1、re.match
从开头位置匹配,匹配成功只返回一个,返回的是对象
若要显示值。group() 返回被 RE 匹配的字符串 re.match语法:re.match(pattern,string,flags=0) pattern:匹配的正则表达式,string:要匹配的字符串,flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等。
s = 'abc1d3e'
print(re.match('[a-z]',s).group())
print(re.match('[0-9]',s)) >a
>None
2.2、re.search(pattern,string ,flags=0)
re.search(pattern, string, flags=0) 用于查找字符串中可以匹配成功的子串,从string的开始位置匹配到结尾,匹配成功则返回一个匹配结果不再向后匹配了,如匹配失败则返回None。
pattern = re.search('w','aw,bw,cw,dw') #匹配结果
print(pattern) #返回一个match对象
print(pattern.group()) #获取一个分组截获的字符串
print(pattern.start()) #截获字符串的开始索引
print(pattern.end()) #截获字符串的结束索引
>w
>1
>2
- group() 返回被 RE 匹配的字符串
- start() 返回匹配开始的位置
- end() 返回匹配结束的位置
- span() 返回一个元组包含匹配 (开始,结束) 的位置
2.3、re.findall(pattern,string,flags=0)
re.findall(pattern, string, flags=0) 搜索string,以列表的形式返回全部能匹配到的字串。 s = 'abc1d3e'
print(re.findall('[a-z]',s)) print(re.findall('[0-9]','a1b2c3')) print(re.findall('\d+','a21b32c35'))
#以列表的形式返回所有匹配的子串,\d+为匹配1到多个数字 输出结果:
['a', 'b', 'c', 'd', 'e']
['', '', '']
['', '', '']
2.4、re.finditer(patter,string,flag=0)
re.finditer(pattern, string, flags=0) 搜索string,返回访问每一个匹配结果的match对象的迭代器 pat = re.finditer('\d+','aa123bb456cc') #返回match对象的一个迭代器
print(pat) for i in pat: #循环迭代器取值
print(i.group()) >
<callable_iterator object at 0x0000000002696A90>
123
456
2.5、re.sub()
re.sub(pattern, repl, string, count=0, flags=0) 使用repl替换string中每一个匹配的子串后返回替换后的字符串。count用于指定最多替换的次数,默认时时全部替换。 pat = re.sub('\d+','@@@','aaa1bbb22ccc333')
print(pat) #替换匹配对象
print(re.sub('\d+','@@@','aaa1bbb22ccc333',count=2)) >
aaa@@@bbb@@@ccc@@@
aaa@@@bbb@@@ccc333
有加号时 把1 22 333 看成一个整体
没有就会单个,,,每个都会替换 aaa@@@bbb@@@@@@ccc@@@@@@@@@
'\d'没有+,结果不一样
2.6、re.compile()
re.compile(pattern,flags=0) 编译一个正则表达式模式,返回一个模式对象 import re
re1 = re.compile(r'hello') #编译一个正则匹配模式
print(type(re1))
print(re.match(re1,'hello world').group()) >
<class 're.Pattern'>
hello
2.7、re.spilt()
re.spilt re.split(pattern, string[, maxsplit])
按照能够匹配的子串将string分割后返回列表。 maxsplit用于指定最大分割次数,不指定将全部分割。 import re s='9-2*5/3+7/3*99/4*2998+10*568/14'
print(re.split('[\*\-\/\+]',s)) print(re.split('[\*\-\/\+]',s,3))#分割三次
>
['', '', '', '', '', '', '', '', '', '', '', '']
['', '', '', '3+7/3*99/4*2998+10*568/14']
2.8、re.fullmath
re.fullmatch(pattern, string, flags=0) 整个字符串匹配成功就返回re object, 否则返回None re.fullmatch('\w+@\w+\.(com|cn|edu)',"alex@oldboyedu.cn")
3、练习题
# 1 验证手机号是否合法
import re
# phone_number = input('phone_number:>').strip()
# print('phone_number:>',type(phone_number))
# if re.findall('1[0-9]{10}',phone_number):
# print('合法') # 2 验证邮箱是否合法
#
import re
# email = input('email:>').strip()
# if re.fullmatch('^\w+@\w+\.[a-zA-Z]{3}$',email):
# print('email合法')
# 3 开发一个简单的python计算器,实现加减乘除及拓号优先级解析
#用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )
# 等类似公式后,必须自己解析里面的(),+,-,*,/符号和公式(不能调用eval等类似功能偷懒实现),
# 运算后得出结果,结果必须与真实的计算器所得出的结果一致
(). 读取文件a.txt,匹配文中所有ip地址,将所有ip地址加入到一个列表中,打印该列表。 import re li = []
with open("a","r") as f:
for line in f:
result = re.findall(r'\d+\.\d+\.\d+\.\d+', line)
if result:
li += result
print(li) (). s = '123.33sdhf3424.34fdg323.324',计算字符串中所有数字的和
本题结果应为:123.33+3424.34+323.32 import re
s = '123.33sdhf3424.34fdg323.324sss12'
obj = re.findall(r'\d+\.\d+|\d+',s) start =
for i in obj:
start += float(i)
print(start)
15 python re 模块的更多相关文章
- 2015/9/15 Python基础(12):模块和包
模块是用来组织 Python 代码的方法,而包则是用来组织模块的. 当代码量很大时,我们一般会把代码分成几个有组织的代码段,然后每个代码段之间有一定的联系.代码单之间是共享的,所以Python允许调入 ...
- python json模块(15)
JSON 的全称是 JavaScript Object Notation,即 JavaScript 对象符号,它是一种轻量级.跨平台.跨语言的数据交换格式,其设计意图是把所有事情都用设计的字符串来表示 ...
- Python Logging模块的简单使用
前言 日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
- python基础-模块
一.模块介绍 ...
- Python time模块学习
Python time模块提供了一些用于管理时间和日期的C库函数,由于它绑定到底层C实现,因此一些细节会基于具体的平台. 一.壁挂钟时间 1.time() time模块的核心函数time(),它返回纪 ...
- Python天天美味(15) - Python正则表达式操作指南(re使用)(转)
http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html 简介 Python 自1.5版本起增加了re 模块,它提供 Perl 风格 ...
- Day05 - Python 常用模块
1. 模块简介 模块就是一个保存了 Python 代码的文件.模块能定义函数,类和变量.模块里也能包含可执行的代码. 模块也是 Python 对象,具有随机的名字属性用来绑定或引用. 下例是个简单的模 ...
- python 各模块
01 关于本书 02 代码约定 03 关于例子 04 如何联系我们 1 核心模块 11 介绍 111 内建函数和异常 112 操作系统接口模块 113 类型支持模块 114 正则表达式 115 语言支 ...
- python random模块 - 小驹的专栏 - 博客频道 - CSDN.NET
python random模块 - 小驹的专栏 - 博客频道 - CSDN.NET python random模块 分类: python 2011-11-15 15:31 6037人阅读 评论(2) ...
随机推荐
- Tensoflw.js - 01 - 安装与入门(中文注释)
Tensoflw.js - 01 - 安装与入门(中文注释) 参考 W3Cschool 文档:https://www.w3cschool.cn/tensorflowjs/ 本文主要翻译一些英文注释,添 ...
- mave安装配置
首先从官网上 http://maven.apache.org/ 下载最新版Maven.我用的是apache-maven-3.0.4-bin.tar.gz.将下载后的文件拷贝到 /usr/local/目 ...
- 标 题: Re: 总感觉IT没我大山东啥事?
发信人: liuzhlai (liuzhlai), 信区: ITExpress 标 题: Re: 总感觉IT没我大山东啥事? 发信站: 水木社区 (Sat Aug 22 15:51:50 2015) ...
- windows python3 安装gittle
1 从github clone gittle项目, git clone https://github.com/FriendCode/gittle.git 2 进行到下载的项目,执行安装 python ...
- net core 2.0学习笔记(一):开发运行环境搭建 (转)
期待已久的.net core 2.0终于发布了!大家等的花儿都谢了. 不过比预期提前了一个多月,这在微软历史上还真的不多见.按照历史经验看,2.0版本应该比较靠谱,我猜这也是社区非常火爆的原因吧.下面 ...
- mySQL教程 第1章 数据库设计
E-R设计 很多同学在学SQL语句时,觉得非常困难,那是因为你在学一个你根本不了解的数据库,数据库中的表不是你设计的,表与表之间的关系你不明白.因此在学SQL语句之前,先介绍一下数据库设计. 下面举例 ...
- ASM配置管理
http://blog.chinaunix.net/uid-22646981-id-3060280.htmlhttp://blog.sina.com.cn/s/blog_6a5aa0300102uys ...
- 2018年,Java程序猿10本经典好书推荐
1.Java 8实战 本书全面介绍了Java 8 这个里程碑版本的新特性,包括Lambdas.流和函数式编程.有了函数式的编程特性,可以让代码更简洁,同时也能自动化地利用多核硬件.全书分四个部分:基础 ...
- bzoj 4927: 第一题
Description 给定n根直的木棍,要从中选出6根木棍,满足:能用这6根木棍拼 出一个正方形.注意木棍不能弯折.问方案数. 正方形:四条边都相等.四个角都是直角的四边形. Input 第一行一个 ...
- 基于jQuery的表单操作
1,文本框的聚焦和失焦 在对文本框进行操作时,通常为了提升用户体验,是用户的操作得到及时的反馈,会在文本框获得焦点时,让其颜色改变,然后在失去焦点时恢复为原来的样式,一般情况下,我们可以通过css的伪 ...