python中正则匹配之re模块
Python中正则表达式
re:re是提供正则表达式匹配操作的模块
一、什么是正则表达式
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某个模式匹配,Python 自1.5版本起增加了re模块,它提供Perl风格的正则表达式。
二、正则表达式的基本使用
1、re.match()介绍
match() 试图从字符串的起始位置对模式进行匹配,如果匹配成功,就返回一个匹配对象,如果匹配失败,就返回None,匹配对象的group()方法能显示成功匹配的对象。
使用语法:
re.match(pattern,string[, flags])
参数说明
- 匹配的正则表达式,直接传入一个字符串,Python会将字符串作为正则表达式来对待
- 匹配的字符串
- 标志位:用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等
import re
ret = re.match("hello","hello word")
print(ret.group()) # 使用group()方式返回对应的分组
注意:
- match() 匹配是从字符串的开始位置匹配,如果开始匹配不到则不在匹配并返回一个None
import re
ret = re.match("hello","ahello word")
print(ret.group()) # 匹配不成功,就返回None
2、re.search()介绍
- re.match() 是从字符串的开始位置匹配,所以基本情况下能够匹配的概率不大。
- re.search() 是从字符串中搜索正则表达式模式,任何位置都可以被匹配,返回的是第一次出现的匹配对象(因为正则字符串中可能会多出匹配),它的参数和re.match()是一样的,返回值也是一个匹配对象
使用语法:
re.search(pattern,string[,flags])
import re
ret = re.search("hello","ahello word") # 搜索成功
print(ret.group()) # hello
3、re.match()和re.search()的区别
- re.match匹配的时候只匹配字符串的开始,如果字符串的开始不符合正则表达式,则匹配失败,函数返回None。
- re.search() 匹配整个字符串,直到匹配到一个。
import re
ret = re.search("^hello","ahello word") # 如果在hello前面加^号,其search的功能和match的功能一样
print(ret.group()) # 匹配不成功,返回None
4、re.fildall()介绍
- re.fildall() 对整个字符串从左到右进行匹配,返回所有匹配对象的列表.
使用语法:
re.fildall(pattern,string[,flags])
ret = re.fildall('\d+','hello123,word456')
print(ret)
结果:
>>>['123','456']
5、re.compile()介绍
- re.compile() 对整个正则表达式进行预编译,生成表达式对象,用于正则匹配
使用语法:
re.compile(pattern,flags)
import re
rule = re.compile('\d+')
ret = rule.findall('hellow word456')
print(ret)
>>>456
6、re.split()介绍
- re.split()方法与字符串的切割方法一样,返回的是一个列表,这了我用正则匹配进行切割
使用语法:
re.split(pattern,string,maxsplit,flags)
import re
strs = 'zhangsan123wangwu345we'
set = re.split('\d+',strs)
print(set)
>>>['zhangsan', 'wangwu', 'we']
7、re.sub()介绍
- re.sub() 批量替换字符串中某个字符,如:将'hello word'替换成'HELLO word'
使用语法:
re.sub(pattern,repl,string,count)
import re
strs = 'hello word'
ret = re.sub('hello','HELLO',strs)
print(ret)
>>>HELLO word
# 使用正则来匹配替换
strs = 'abcd123efg345hi'
ret = re.sub(r'\d+','HELLO',strs)
print(ret)
>>>abcdHELLOefgHELLOhi
8、re.subn()介绍
- re.subn的用法和re.sub是一样的,区别在与返回值,re.sub返回的是字符串,而re.subn返回的是元组
使用语法:
re.subn(pattern,repl,string,count)
import re
strs = 'abcd123efg345hi'
ret = re.subn(r'\d+','HELLO',strs)
print(ret)
>>>('abcdHELLOefgHELLOhi', 2) #('替换后的字符串',替换的次数)
# 指定替换的次数
import re
strs = 'abcd123efg345hi'
ret = re.subn(r'\d+','HELLO',strs,1)
print(ret)
>>>('abcdHELLOefg345hi', 1)
三、正则表达式语法
- 正则表达式的强大之处是因为它提供了很多特殊符号和字符,使用它们正则表达式才可以强大而又灵活。
字符组
| 符号 | 描述 |
|---|---|
| [0-9] | 匹配数字 |
| [a-z] | 匹配小写字母 |
| A-Z | 匹配大写字母 |
| [0-9A-z] | 匹配数字及大小写字母 |
| [3-9] | 匹配小范围的数字值 |
| [a-f] | 匹配小范围的字母值 |
| [^abc] | 不匹配abc任意字符 |
| [^a-z] | 不匹配a-z直接的任意字符 |
| 1[0-9] | 匹配10-19直接的数值 |
| 1[0-9][0-9] | 匹配100-199直接的数值 |
元字符
| 符号 | 描述 |
|---|---|
| \d | 匹配固定:0-9数值 |
| \w | 匹配数字字母及下划线中文:[0-9A-z_"中文"] |
| \s | 匹配空白符:空格,Tab,回车 |
| \t | 匹配Tab |
| \n | 匹配回车 |
| \D | 匹配数字 |
| \W | 匹配非数字字母下划线 |
| \S | 匹配非空白符 |
| . | 匹配除换行符外任意一个字符 |
| ^ | 匹配以某字符开头 |
| $ | 匹配以某字符结尾 |
| [] | 字符组(只要在[]里面的都匹配) |
| [^] | 非字符组(只要在[]里面的都不匹配) |
| | | 或,(如:abcdef|acb) |
| () | 分组,如:^(abcdef|abc)$ |
量词
| 符号 | 描述 |
|---|---|
| {n} | 重复n次 |
| {n,} | 重复至少n次,n次以上 |
| {n,m} | 重复n-m次 |
| ? | 0或1次 |
| + | 1到不限 |
| * | 0到不限 |
贪婪和惰性
| 表达式 | 描述 |
|---|---|
| a.*b | 贪婪 |
| a.*?b,a.+?b | 惰性,在量词后面的?表示惰性匹配,会在符合条件的基础上尽量少的匹配其他内容 |
贪婪匹配模式
- 用到量词的匹配时,默认为贪婪模式
- 贪婪模式的意思就是匹配的时候,尽量多匹配,不行再慢慢的减少匹配
import re
lst = "\d{2,4}"
ret = re.search(lst,"12345abcd")
print(ret.group())
结果:
>>>1234
惰性匹配模式
- 惰性匹配模式正好和贪婪模式相对
- 惰性匹配是尽量少的匹配,不行再慢慢去增加匹配的个数
- 惰性匹配只需要在量词后面添加?即可
import re
lst = "\d{2,4}?"
ret = re.search(lst,"12345abcd")
print(ret.group())
结果:
>>>12
常用正则表达式
| 表达式 | 描述 | 结果 |
|---|---|---|
| 1[3-9]\d{9} | 匹配手机号 | 13888998899 |
| [1-9]\d* | 匹配任意的正整数 | 143 |
| \d+.\d+ | 匹配任意小数 | 12.345 |
| \d+(.\d+) | 匹配整数或小数 | 12或者12.131231 |
常用分组
| 代码 | 描述 |
|---|---|
| (exp) | 匹配exp,并捕获文本到自动命名的组里 |
| (?exp) | 匹配exp,并捕获文本到名称为name的组里,也可以写(?'name'exp) |
| (?:exp) | 匹配exp,不捕获匹配的文本,也不给次分组分配组号 |
| (?=exp) | 匹配exp前面的位置 |
| (?<=exp) | 匹配exp后面的位置 |
| (?!exp) | 匹配后面跟的不是exp的位置 |
| (?<!exp) | 匹配前面不是exp的位置 |
findall,search和分组的关系
案例1:
import re
ret = re.findall('\d(\d)','a1,b22,c345')
print(ret)
>>>[2,4]
案例2:
import re
ret = re.findall('\d(?:\d)','a1,b22,c345')
print(ret)
>>>['22','34']
案例3:
import re
ret = re.search('(?P<num1>\d)(?P<num2>\d)','a14,b22,c3357')
print(ret.group()) # 14
print(ret.group(0)) # 14
print(ret.group(1)) # 1
print(ret.group(2)) # 4
print(ret.group('num1')) # 1
print(ret.group('num2')) # 4
案例4:
import re
ret = re.search('(?P<num1>\d)(?P=num1)','a14,b22,c3357')
print(ret.group()) #匹配10位数,并且分组1=分组2
>>>22
分组的作用
import re
ret = re.search("<(?P<tag_name)>\w)>.*</(?P=tag_name)>","<h1>hello<\h1>")
print(ret)
print(ret.group('tag_name'))
print(ret.group())
>>>h1
>>>h1
>>><h1>hello</h1>
python中正则匹配之re模块的更多相关文章
- Python中正则匹配使用findall时的注意事项
在使用正则搜索内容时遇到一个小坑,百度搜了一下,遇到这个坑的还不少,特此记录一下. 比如说有一个字符串 "123@qq.comaaa@163.combbb@126.comasdf111@a ...
- Python中正则匹配使用findall,捕获分组(xxx)和非捕获分组(?:xxx)的差异
转自:https://blog.csdn.net/qq_42739440/article/details/81117919 下面是我在用findall匹配字符串时遇到的一个坑,分享出来供大家跳坑. 例 ...
- Python中操作mysql的pymysql模块详解
Python中操作mysql的pymysql模块详解 前言 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同.但目前pymysql支持python3.x而后者不支持 ...
- python中的计时器:timeit模块
python中的计时器:timeit模块 (1) timeit - 通常在一段程序的前后都用上time.time()然后进行相减就可以得到一段程序的运行时间,不过python提供了更强大的计时库:ti ...
- python - 手机号正则匹配
Python 手机号正则匹配 # -*- coding:utf-8 -*- import re def is_phone(phone): phone_pat = re.compile('^(13\d| ...
- Python中正则模块re.compile、re.match及re.search函数用法
import rehelp(re.compile)'''输出结果为:Help on function compile in module re: compile(pattern, flags=0) C ...
- python - re正则匹配模块
re模块 re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re ...
- python中的正则表达式(re模块)
一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎 ...
- [转]python中的正则表达式(re模块)
转自:https://www.cnblogs.com/tina-python/p/5508402.html 一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成 ...
随机推荐
- PHP面试 PHP基础知识 十一(开发环境及相关配置)
开发环境及相关配置 版本控制软件 集中式和分布式 集中式:集中式版本控制工具,版本库集中存放在中央服务器,团队成员里的每个人工作时从中央服务器下载代码,个人修改后再提交到中央服务器 分布式:分布式版本 ...
- <读书笔记>《高性能网站建设指南:前端工程师技能精髓》
只有10-20%的最终用户响应时间花在了下载HTML文档上.其余的80-90%时间花在了下载页面中的所有组件上. 规则1.减少HTTP请求 图片地图:将多个图片合并成一个,而后通过css定位显示不同的 ...
- 洛谷P2602 [ZJOI2010]数字计数(数位dp)
数字计数 题目传送门 解题思路 用\(dp[i][j][k]\)来表示长度为\(i\)且以\(j\)为开头的数里\(k\)出现的次数. 则转移方程式为:\(dp[i][j][k] += \sum_{t ...
- ztree 数组和树结构互转算法
//树转化为数组transformToArrayFormat: function (setting, nodes) { if (!nodes) return []; var childKey = se ...
- pytest-Allure安装
mac安装allure brew install allure---安装 brew info allure---查看信息 mac端需要配置环境变量 win安装: windows/mac通用安装 • h ...
- 使用JDBC获取SQL自动增长的ID
在项目开发中,遇到一个问题,先添加一条记录然后想立刻获取这条记录的ID值,ID由SQLServer自动增长的,如果先插入再查询的话,需要另外执行一条查询ID的SQL语句,因此有了下面的方法: 1.使用 ...
- Java 多态基础
多态的定义 程序中定义的引用变量所指向的具体类型和通过该引用变量发出的方法调用在编程时并不确定,而是在运行期间才确定. 或者是同一个行为具有多个不同表现形式或形态的能力. 多态的体现 在玩LOL时,W ...
- 深入理解java虚拟机JVM(下)
深入理解java虚拟机JVM(下) 链接:https://pan.baidu.com/s/1c6pZjLeMQqc9t-OXvUM66w 提取码:uwak 复制这段内容后打开百度网盘手机App,操作更 ...
- 使用canvas给图片添加水印, canvas转换base64,,canvas,图片,base64等转换成二进制文档流的方法,并将合成的图片上传到服务器,
一,前端合成带水印的图片 一般来说,生成带水印的图片由后端生成,但不乏有时候需要前端来处理.当然,前端处理图片一般不建议,一方面js的处理图片的方法不全,二是有些老版本的浏览器对canvas的支持度不 ...
- 发光LED压降与工作电流总结
一.常用的普通贴片0603LED 红色的压降为1.82-1.88V,电流5-8mA 绿色的压降为1.75-1.82V,电流3-5mA 橙色的压降为1.7-1.8V,电流3-5mA 兰色的压降为3.1- ...