Python3学习之路~5.13 re模块 正则表达式
re模块用于对python的正则表达式的操作。
常用正则表达式符号
字符数字: . 匹配除换行符以外的任意字符,即[^\n]
\s 匹配任意空白符(如\t、\n、\r )
\S 匹配任意非空白符
\w 匹配[A-Za-z0-9下划线汉字]
\W 匹配非[A-Za-z0-9下划线汉字]
\b 匹配单词的开始或结束
^或\A 匹配字符串的开始
$或\Z 匹配字符串的结束
\d或[0-9] 匹配所有数字
\D 匹配非数字 次数: * 重复零次或多次
+ 重复一次或多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次 其他:
| 匹配|左或|右的字符
(...) 分组匹配
\ 转义字符
[] 匹配符合[]内的字符
[^] 匹配不符合[]内的字符
组合:
(?P<name>...) 分组匹配
[a-z] 匹配所有小写字母字符
[^a-z] 匹配所有非小写字母字符
[^0-9] 匹配所有非数字字符
[\u4e00-\u9fa5] 匹配中文
(.*)或(.+) 匹配单行
^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$ 匹配IP
^1[3|4|5|7|8|9][0-9]\d{8}$ 匹配手机号(貌似手机号第二位有3,4,5,7,8,9)
正则表达式代码实例
import re # . 匹配除换行符以外的任意字符,即[^\n]
# + 重复一次或更多次
# .+匹配任意字符串
res = re.search('f.+n',"abcd1234efghijklmn5678")
print(res.group()) # fghijklmn # \s 匹配任意空白符(如\t、\n、\r )
res = re.search('\s+',"123$+ \r\n b")
print(res.group()) # ' \r\n\t' # \S 匹配任意非空白符
res = re.search('\S+',"123aZ你好$+ \r\n b")
print(res.group()) # 123aZ你好$+ # \w 匹配[A-Za-z0-9下划线汉字]
res = re.search('\w+',"123_你好$+ b")
print(res.group()) # 123_你好 # \W 匹配非[A-Za-z0-9下划线汉字]
res = re.search('\W+',"123_你好$+ b")
print(res.group()) # $+ # ^或\A 匹配字符串的开始
# $或\Z 匹配字符串的结束
res = re.search('\A[0-9]+[a-z]\Z',"123b")
print(res.group()) # 123b res = re.search('^[0-9]+[a-z]$',"123b")
print(res.group()) # 123b # \d或[0-9] 匹配所有数字
res = re.search('abcd\d',"abcd1234efgh5678")
print(res.group()) # abcd1 res = re.search('abcd[0-9]',"abcd1234efgh5678")
print(res.group()) # abcd1 # \D 匹配非数字
res = re.search('\D+',"123$+ b")
print(res.group()) # $+ b # ? 重复零次或一次
res = re.search('aal?',"aalex") # 匹配aa或者aal
print(res.group()) # aal res = re.search('aal?',"aaex")
print(res.group()) # aa # * 重复零次或多次
# {n} 重复n次
# {n,} 重复n次或更多次
# {n,m} 重复n到m次
res = re.search('e[0-9]*',"aa1e2345x")
print(res.group()) # e2345 res = re.search('[0-9]{3}',"aa1e2345x")
print(res.group()) # res = re.search('[0-9]{3,}',"aa1e2345x")
print(res.group()) # res = re.search('[0-9]{1,3}',"aa1e2345x")
print(res.group()) # # | 匹配|左或|右的字符
res = re.search('abc|ABC',"ABCdabcD")
print(res.group()) # ABC # (...) 分组匹配
res = re.search('abc{2}',"Alexabcc") #匹配c两次
print(res.group()) # abcc res = re.search('(abc){2}',"Alexabcabc") #匹配abc两次
print(res.group()) # abcabc # \ 转义字符
res = re.search(r"\\","abcd12s3\df4sa5f")
print(res.group()) # \ res = re.search("\\\\","abcd12s3\\df4sa5f")
print(res.group()) # \ res = re.search('(abc){2}\|',"Alexabcabc|") #匹配管道符,前面需加反斜杠转义
print(res.group()) # abcabc| res = re.search('(abc){2}(\|\|=){2}',"Alexabcabc||=||=") #等号不需转义
print(res.group()) # abcabc||=||= # (?P < name >...) 分组匹配
res = re.search("(?P<id>[0-9]+)","abcd1234sdfsaf")
print(res.groupdict()) # {'id': '1234'} res = re.search("(?P<id>[0-9]+)(?P<name>[a-zA-Z]+)","abcd1234sdfs#2af")
print(res.groupdict()) # {'id': '1234', 'name': 'sdfs'}
a=res.groupdict()
print(a['id']) #
a =res.group('id')
print(a) # res = re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{8})","")
print(res.groupdict()) # {'province': '3711', 'city': '02', 'birthday': '19921118'} # [a-z] 匹配所有小写字母字符
res = re.search('[a-z]+',"ABCD1234abcd&*")
print(res.group()) # abcd # [^a-z] 匹配所有非小写字母字符
res = re.search('[^a-z]+',"ABCD1234abcd&*")
print(res.group()) # ABCD1234 # [^0-9] 匹配所有非数字字符
res = re.search('[^0-9]+',"ABCDabcd&*1234")
print(res.group()) # ABCDabcd&* # [\u4e00-\u9fa5] 匹配中文
res = re.search('[\u4e00-\u9fa5]+',"ABCDabcd&*1234你好")
print(res.group()) # 你好 # (.*)或(.+) 匹配单行
res = re.search('(.*)',"ABCDabc\nd&*1\r\n234你好")
print(res.group()) # ABCDabc res = re.search('(.+)',"ABCDabc\nd&*1\r\n234你好")
print(res.group()) # ABCDabc # ^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$ 匹配IP
res = re.search('^(25[0-5]|2[0-4]\d|[0-1]?\d?\d)(\.(25[0-5]|2[0-4]\d|[0-1]?\d?\d)){3}$',"192.168.1.10")
if res:
print(res.group()) # 192.168.1.10
else:
print('it is not a valid IP') # ^1[3|4|5|8][0-9]\d{8}$ 匹配手机号
res = re.search('^1[3|4|5|7|8|9][0-9]\d{8}$',"")
if res:
print(res.group()) #
else:
print('it is not a valid phone number')
re模块中最常用的匹配语法
1、match(pattern, string, flags=0) 从起始位置开始根据模型去字符串中匹配指定内容,匹配单个
- 正则表达式
- 要匹配的字符串
- 标志位,用于控制正则表达式的匹配方式
import re res = re.match('\d+', '123uuasf')
if res:
print(res.group()) #
2、search(pattern, string, flags=0) 根据模型去字符串中匹配指定内容,匹配单个
import re res = re.search('\d+', 'aa123uuasf')
if res:
print(res.group()) #
3、findall(pattern, string, flags=0) 根据模型去字符串中匹配指定内容,匹配所有。注意:findall没有group方法。
import re res = re.findall('\d+', 'fa123uu888asf')
if res:
print(res) # ['123', '888']
4、sub(pattern, repl, string, count=0, flags=0) 用于替换匹配的字符串,相比于str.replace功能更加强大
import re res = re.sub("[0-9]+","|","abcd12s3df4sa5f")
print(res) # abcd|s|df|sa|f res = re.sub("[0-9]+","|","abcd12s3df4sa5f",count=2)
print(res) # abcd|s|df4sa5f
5、split(pattern, string, maxsplit=0, flags=0) 根据指定匹配进行分组,相比于str.split更加强大
import re
res = re.split("[0-9]+","abcd12s3df4sa5f")
print(res) # ['abcd', 's', 'df', 'sa', 'f']
6、group和groups
import re
a = "123abc456"
print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group()) # 123abc456 print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(0)) # 123abc456
print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(1)) #
print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(2)) # abc print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).groups()) # ('123', 'abc', '456')
几个匹配模式
# flags
I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # 忽略大小写
M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # 多行模式,可改变'^'和'$'的行为
S = DOTALL = sre_compile.SRE_FLAG_DOTALL # 点任意匹配模式,可改变'.'的行为
L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale
U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale
X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments
import re # I = IGNORECASE 忽略大小写
res = re.search("[a-z]+","abcdA123",flags=re.I)
print(res.group()) # abcdA # M = MULTILINE 多行模式,可改变'^'和'$'的行为
res = re.search("^[a-z]+","\nabcd12\nA123",flags=re.M)
print(res.group()) # abcd 若不加flags=re.M则abcd是匹配不出来的 res = re.search("foo$","\nbfoo\nsdfsf",flags=re.M)
print(res.group()) # foo 不加flags=re.M则foo是匹配不出来的 # S = DOTALL 点任意匹配模式,可改变'.'的行为
msg = '''abc
123
'''
res = re.search("^.+",msg,flags=re.S)
print(res.group()) #由于msg中abc和123占2行,如果不加flags=re.S则只能匹配一行abc
# 输出:
# abc
#
匹配模式举例
反斜杠的困扰
与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。同样,匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。
Python3学习之路~5.13 re模块 正则表达式的更多相关文章
- Python3学习之路~9.1 paramiko模块:实现ssh执行命令以及传输文件
我们一般使用linux的时候,都是在Windows上安装一个ssh客户端连接上去.那么从一台linux如何连接到另一条linux呢?使用ssh命令即可,因为每台linux机器自己都有一个ssh客户端. ...
- Python3学习之路~5.5 sys模块
用于提供对解释器相关的操作 sys.argv 命令行参数List,第一个元素是程序本身路径 sys.exit(n) 退出程序,正常退出时exit(0) sys.version 获取Python解释程序 ...
- Python3学习之路~5.3 random模块
random模块常用方法: import random # 随机数 print(random.random()) # 生成一个0到1的随机浮点数,0 <= n < 1.0 print(ra ...
- Python3学习之路~5.11 configparser模块
用于生成和修改常见配置文档,当前模块的名称在 python 2.x 版本中为 ConfigParser, python 3.x 版本中变更为 configparser. 来看一个好多软件的常见文档格式 ...
- Python3学习之路~5.10 PyYAML模块
Python也可以很容易的处理ymal文档格式,只不过需要安装一个模块,参考文档:http://pyyaml.org/wiki/PyYAMLDocumentation
- Python3学习之路~5.8 shelve模块
shelve模块是一个简单的k,v将内存数据通过文件持久化的模块,可以持久化任何pickle可支持的python数据格式 import shelve import datetime name = [& ...
- Python3学习之路~5.4 os模块
用于提供系统级别的操作 os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录:相当于shel ...
- Python3学习之路~0 目录
目录 Python3学习之路~2.1 列表.元组操作 Python3学习之路~2.2 简单的购物车程序 Python3学习之路~2.3 字符串操作 Python3学习之路~2.4 字典操作 Pytho ...
- python学习之路(13)
列表生成式 列表生成式即List Comprehensions,是Python内置的非常简单却强大的可以用来创建list的生成式. 举个例子,要生成list [1, 2, 3, 4, 5, 6, 7, ...
随机推荐
- E-WORK 对接 MTS 系统
E-WORK 目前的 E-WORK 系统主要包含了如下功能: 技能类型的管理 比如说品质检验技能.测试技能(成品测试或半成品测试).组装装配技能(打螺丝.合壳.点胶等).包装技能(封箱. ...
- Spring的两种代理方式:JDK动态代理和CGLIB动态代理
代理模式 代理模式的英文叫做Proxy或Surrogate,中文都可译为”代理“,所谓代理,就是一个人或者一个机构代表另一个人或者另一个机构采取行动.在一些情况下,一个客户不想或者不能够直接引用一个对 ...
- Excel公式笔记
跨表,查找相同的数据,的其他列的值 =index(sheet2!$c$:$c$,match(sheet1!$b$,sheet2!$d$:$d$,)) 备注: =index(读哪里的数据(大范围), m ...
- go语言关键字图示
Go语言一共有25个关键字,除了select,上文基本上已经一网打尽了.为了加深印象,我们用一张结构图来说明一下: 这张图如果看不清的话,我们将其拆成两张图,再注掉分支流程那部分的局部图: 分支流程部 ...
- webstrom IDE 激活
2017.2.27更新 选择“license server” 输入:http://idea.imsxm.com/ 2016.2.2 版本的破解方式: 安装以后,打开软件会弹出一个对话框:选择“lice ...
- 运行yarn的时候提示 node不是内部或外部命令
背景:准备react native 搭建,装完nodejs npm 重启cmd,再次管理员运行即可!
- awk使用总结
转载自董的博客 1. 什么是awk awk是Unix/Linux提供的样式扫描与处理工具,非常擅长处理结构化数据和生成表单.与sed 和grep 很相似,但功能却超过大于两者,由于awk具备各种脚本语 ...
- Swagger UI 与SpringMVC的整合 II
pom.xml <!-- swagger开始 --> <dependency> <groupId>io.springfox</groupId> < ...
- 一款可视化的在线制作H5
一款可视化的在线制作H5 官方网站: http://www.iii66.cn 制作H5网址: http://www.iii66.cn/love/page/index 包括对图片,文字,图形,视频,声音 ...
- 媳妇要转java开发,我该怎么办?
我是一名5年的java开发者,媳妇是一个5年的软件实施工程师,我们结婚快一年了,这几天她突然对我说,她想转java开发,让我辅导她学习java,我该怎么弄,我心底是不愿意她转开发的,毕竟她年龄也不小了 ...