第二十一天python3 python的正则表达式re模块学习

python的正则表达式
python使用re模块提供了正则表达式处理的能力；

常量

re.M

re.MULTILINE	多行模式

re.S

re.DOTALL	单行模式

re.I

re.IGNORECASE	忽略大小写

re.X

re.VERBOSE	忽略表达式中的空白字符

使用|位或运算开启多种选项
#示例：n = re.match('b',s,re.M)

编译

re.compile(pattern,flags=0)

设定flags，编译模式，返回正则表达式对象regex；

pattern就是正则表达式字符串，flags就是选项。正则表达式需要被编译，为了提高效率，这些编译后的结果被保存，下次使用同样的pattern的时候，就不需熬再次编译；

单次匹配

re.match(apttern,string,flags=0)

regex.match(string[,pos[,endpos]])

match匹配从字符串的开头匹配，regex对象match方法可以重新设定开始位置和结束位置，返回match对象；

re.search(pattern,string,flag=0)

regex.search(string[,pos[,endpos]])

从头搜索知道第一个匹配，regex对象search方法可以重新设定开始位置和结束位置，返回match对象；

re.fullmatch(pattern,string,flags=0)

regex.fullmatch(string[,pos[,endpos]])

整个字符串和正则表达式匹配；

示例：

import re

s = """bootle\nbag\nbig\napple"""

for i,c in enumerate(s,1):

    print((i-1,c),end='\n' if i%8 == 0 else ' ')

#执行结果：

(0, 'b') (1, 'o') (2, 'o') (3, 't') (4, 'l') (5, 'e') (6, '\n') (7, 'b')

(8, 'a') (9, 'g') (10, '\n') (11, 'b') (12, 'i') (13, 'g') (14, '\n') (15, 'a')

(16, 'p') (17, 'p') (18, 'l') (19, 'e')

#之所以这样做是为了更好的理解match的边界问题；

n = re.match('b',s,re.M)

m = re.match('boot',s)

l = re.match('t',s)

print(n)

print(m)

print(l)

执行结果：

<_sre.SRE_Match object; span=(0, 1), match='b'>

<_sre.SRE_Match object; span=(0, 4), match='boot'>

None

#n和m都返回了一个match对象，并且给出了边界范围，是前包后不包；并且只匹配一次；

#l返回的结果是None，是因为match的特性就是从字符串的开头开始匹配；相当于^\w;

"(0, 'b') (1, 'o') (2, 'o') (3, 't') (4, 'l') (5, 'e') (6, '\n') (7, 'b')

(8, 'a') (9, 'g') (10, '\n') (11, 'b') (12, 'i') (13, 'g') (14, '\n') (15, 'a')

(16, 'p') (17, 'p') (18, 'l') (19, 'e')"

#将需要匹配的字母"b"格式化

regex = re.compile('b')

#调用格式化后的match方法，并打印结果

print(regex.match(s))

print(regex.match(s,7))

print(regex.match(s,7,10))

print(regex.match(s,8))

#执行结果

#没有指定边界，默认从头开始找，默认匹配了第一个b；

<_sre.SRE_Match object; span=(0, 1), match='b'>

#指定了边界，把索引7作为开始，匹配到了第七个b；

<_sre.SRE_Match object; span=(7, 8), match='b'>

#指定了边界范围，指定7到10的索引范围，匹配到了7-10范围内的第一个b；

<_sre.SRE_Match object; span=(7, 8), match='b'>

#在指定的边界内，没有b字母，返回None；

None

#总结：对需要匹配的字符串进行编译(compile)；相当于生成了关于match的一个编译对象；再去调用这个对象的match方法，就可以定义范围了；

"(0, 'b') (1, 'o') (2, 'o') (3, 't') (4, 'l') (5, 'e') (6, '\n') (7, 'b')

(8, 'a') (9, 'g') (10, '\n') (11, 'b') (12, 'i') (13, 'g') (14, '\n') (15, 'a')

(16, 'p') (17, 'p') (18, 'l') (19, 'e')"

#对需要匹配的big进行格式化

regex = re.compile('big')

#调用格式化的fullmatch方法

print(regex.fullmatch(s,11))

print(regex.fullmatch(s,11,14))

print(regex.fullmatch(s,11,15))

#执行结果

None

<_sre.SRE_Match object; span=(11, 14), match='big'>

None

#从上面的执行结果可以看出fullmatch必须要给定明确的需要匹配字符串的边界范围，才有返回值；

全文搜索

re.findall(pattern,string,flags=0)

regex.findall(string[,pos[,endpos]])

对整个字符串，从左至右匹配，返回所有匹配项的列表；

re.finditer(pattern,string,flags=0)

regex.finditer(string[,pos[,endpos]])

对真个字符串，从左至右匹配，返回所有匹配项，返回迭代器；

注意每次迭代返回的是match对象；

示例：

import re

s = """bootle\nbag\nbig\napple"""

for i,c in enumerate(s,1):

    print((i-1,c),end='\n' if i%8 == 0 else ' ')

#执行结果

#(0, 'b') (1, 'o') (2, 'o') (3, 't') (4, 'l') (5, 'e') (6, '\n') (7, 'b')

(8, 'a') (9, 'g') (10, '\n') (11, 'b') (12, 'i') (13, 'g') (14, '\n') (15, 'a')

(16, 'p') (17, 'p') (18, 'l') (19, 'e')

n = re.findall('b',s)

m = re.findall('b\w',s)

print(n)

print(m)
# 执行结果
['b', 'b', 'b']
['bo', 'ba', 'bi']

#锚定

regex = re.compile('^b\w',re.M)

regex1 = re.compile('^b\w',re.S)

print(regex.findall(s),"多行模式")

print(regex1.findall(s),"单行模式")

#执行结果

['bo', 'ba', 'bi'] 多行模式

['bo'] 单行模式

#不锚定

regex = re.compile('b\w',re.M)

regex1 = re.compile('b\w',re.S)

print(regex.findall(s),"多行模式")

print(regex1.findall(s),"单行模式")

#执行结果

['bo', 'ba', 'bi'] 多行模式

['bo', 'ba', 'bi'] 单行模式

#这地方要注意，当在finditer中用\b时，要加上r，防止\b被转译，如果不加r，则在finditer中\b表示的是ascii码中的含义，所以会有匹配不到的问题；

m = re.finditer(r'\bb',s)

print(m,type(m))

for r in m:

    print(r)

执行结果：

#finditer返回了一个可迭代对象；

<callable_iterator object at 0x0000022FE0280BA8> <class 'callable_iterator'>

#用for循环迭代这个可迭代对象，finditer不但可以匹配到字符串，而且何以打印出字符的边界；

<_sre.SRE_Match object; span=(0, 1), match='b'>

<_sre.SRE_Match object; span=(7, 8), match='b'>

<_sre.SRE_Match object; span=(11, 12), match='b'>

匹配替换

re.sub(pattern,replacement,string,count=0,flags=0)

regex.sub(replacement,string,count=0)

使用pattern对字符串string进行匹配，对匹配项使用repl替换。replacement可以是string、bytes、function；

re.subn(pattern,replacement,string,count=0,flags=0)

regex.subn(replacement,string,count=0)

同sub返回一个元组(new_string、number_of_subs_made)，并且告诉总共匹配了几次；

示例：

import re

s = """bootle\nbag\nbig\napple"""

m = re.sub('b\w','AAA',s)

print(m)

执行结果：

AAAotle\nAAAg\nAAAg\napple

import re

s = """bootle\nbag\nbig\napple"""

n = re.sub('b\w',"AAA",s,count=1)

print(n)

#执行结果

AAAotle\nbag\nbig\napple

import re

s = """bootle\nbag\nbig\napple"""

regex = re.compile('b\w')

print(regex.sub('RRR',s,count=2))

执行结果：

RRRotle\nRRRg\nbig\napple

import re

s = """bootle\nbag\nbig\napple"""

m = re.subn('b\w','AAA',s)

print(m)

regex = re.compile('b\w')

print(regex.subn('RRR',s,count=2))

print(regex.subn('RRR',s,count=10))

#执行结果

('AAAotle\nAAAg\nAAAg\napple', 3)

('RRRotle\nRRRg\nbig\napple', 2)

('RRRotle\nRRRg\nRRRg\napple', 3)

分割字符串

re.split(pattern,string,maxsplit=0,flags=0)

re.split分割字符串

import re

s = """01 bottle

02 bag

03      big1

100       able"""

result1 = re.split('[\s\d]+',s)

print(1,result1)

regex2 = re.compile('^[\s\d]+')

result2 = regex2.split(s)

print(2,result2)

regex3 = re.compile('^[\s\d]+',re.M)

result3 = regex3.split(s)

print(3,result3)

regex4 = re.compile('\s+\d+\s+')

result4 = regex4.split(s)

print(4,result4)

#执行结果：

1 ['', 'bottle', 'bag', 'big', 'able']

2 ['', 'bottle\n02 bag\n03      big1\n100       able']

3 ['', 'bottle\n', 'bag\n', 'big1\n', 'able']

4 ['01 bottle', 'bag', 'big1', 'able']

分组

使用小括号的pattern捕获的数据被放到了组group中；

match、search函数可以返回match对象；findall返回字符串列表；finditer返回一个个match对象；

如果pattern中使用了分组，如果有匹配的结果，会在match对象中：

1、使用group(N)方式返回对应分组；1-N是对应的分组，0返回整个匹配的字符串；

2、如果使用了命名分组，可以使用group(‘name’)的方式取分组；

3、也可以使用groups()返回所有分组；

4、使用groupdict()返回所有命名的分组；

示例：

import re

s = """bootle\nbag\nbig\napple"""

print("分组")

regex = re.compile('(b\w+)')

result = regex.match(s)

print(type(result))

print(1,'match',result.groups())

result1 = regex.search(s,1)

print(2,'search',result1.groups())

print('命名分组')

regex2 = re.compile('(b\w+)\n(?P<name2>b\w+)\n(?P<name3>b\w+)')

result2 = regex2.match(s)

print(3,'match',result2)

print(4,result2.group(3),result2.group(2),result2.group(1))

print(5,result2.group(0).encode())

print(6,result2.group('name2'),result2.group('name3'))

print(7,result2.groups())

print(8,result2.groupdict())

print('#####')

result3 = regex.findall(s)

for x in result3:

    print(type(x),x)

regex3 = re.compile('(?P<head>b\w+)')

result3 = regex3.finditer(s)

for r in result3:

    print(type(r),r,r.group(),r.group('head'))

#执行结果

分组

<class '_sre.SRE_Match'>

1 match ('bootle',)

2 search ('bag',)

命名分组

3 match <_sre.SRE_Match object; span=(0, 14), match='bootle\nbag\nbig'>

4 big bag bootle

5 b'bootle\nbag\nbig'

6 bag big

7 ('bootle', 'bag', 'big')

8 {'name3': 'big', 'name2': 'bag'}

#####

<class 'str'> bootle

<class 'str'> bag

<class 'str'> big

<class '_sre.SRE_Match'> <_sre.SRE_Match object; span=(0, 6), match='bootle'> bootle bootle

<class '_sre.SRE_Match'> <_sre.SRE_Match object; span=(7, 10), match='bag'> bag bag

<class '_sre.SRE_Match'> <_sre.SRE_Match object; span=(11, 14), match='big'> big big

第二十一天python3 python的正则表达式re模块学习的更多相关文章

Python 日期时间处理模块学习笔记
来自:标点符的<Python 日期时间处理模块学习笔记> Python的时间处理模块在日常的使用中用的不是非常的多,但是使用的时候基本上都是要查资料,还是有些麻烦的,梳理下,便于以后方便的 ...
python中正则表达式re模块详解
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索,替换,匹配验证都不在话下. 当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了. 先看一下常用的匹配 ...
Python的正则表达式re模块
Python的正则表达式(re模块) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Python使用re模块提供了正则表达式处理的能力.如果对正则表达式忘记的一干二净的话,可以花费 ...
Day5 - Python基础5 常用模块学习
Python 之路 Day5 - 常用模块学习本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shel ...
Python基础5 常用模块学习
本节大纲: 模块介绍 time &datetime模块 random os sys shutil json & picle shelve xml处理 yaml处理 configpars ...
Python自动化之常用模块学习
自动化常用模块 urllib和request模块学习笔记 '获取页面,UI自动化校验页面展示作用': #-*- coding : utf-8 -*-import urllib.requestimpor ...
Python：正则表达式 re 模块
正则是处理字符串最常用的方法,我们编码中到处可见正则的身影. 正则大同小异,python 中的正则跟其他语言相比略有差异: 1.替换字符串时,替换的字符串可以是一个函数 2.split 函数可以指定分 ...
Python：正则表达式—— re 模块
一.什么是正则表达式(Regular Expression) 正则表达式本身是一种小型的.高度专业化的编程语言,它内嵌在Python中,并通过 re(regular expression)模块实现.使 ...
python/pandas 正则表达式 re模块
目录正则解说中文字符集 re模块常用方法 1.正则解说数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串.Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪) ...

随机推荐

查重工具Jplag的使用
目录前言一.Jplag是什么? 二.使用步骤 1.下载包 2.java环境配置 3.如何使用三.总结前言说明一下本文章针对最新版本Jplag3.0使用JplagAPI 一.Jplag是什么? ...
购物车+ATM项目（图形化）
项目下载项目目录结构运行效果 seetings.py import logging import logging.config # 定义日志输出格式开始 import os standard_f ...
Base64隐写
0x00: 前言 Base64编码的作用: 将一些特殊的字符转换成常见的字符.特殊的字符可能是不可见字符或者是大于ascii码127的,将其变成常见的字符(在base64中为a~z A~Z 0~9 + ...
linxu篇-centos搭建ftp服务器
1安装vsftpd 2备份配置文件 3修改配置文件 vi /etc/vsftpd/vsftpd.conf anonymous_enable=NO #允许匿名用户访问为了安全选择关闭 local_ena ...
从标准输入流中读取并执行shell指定函数
巧妙的ohmytmux配置看oh my tmux的配置,发现他们很巧妙的将配置和shell函数放到一个文件里比如切换鼠标模式的相关配置和shell函数, # : << EOF # .. ...
手把手教你使用Git管理你的软件代码
什么是分布式版本控制系统?Git有哪些常用命令?什么是仓库?Git的操作区域包括哪些?Git有哪些常用对象(object)?git rebase和git merge的区别是什么?git reset,g ...
场景实践：基于 IntelliJ IDEA 插件部署微服务应用
体验简介阿里云云起实验室提供相关实验资源,点击前往本场景指导您把微服务应用部署到 SAE 平台: 登陆 SAE 控制台,基于 jar 包创建应用基于 IntelliJ IDEA 插件更新 SAE ...
elemetnUI表格分别给列表每一个按钮加loading
// 获取列表数据的时候--添加按钮loading this.list = this.list.map((item) => { this.$set(item, "dataLoading ...
MySQLDocker 主从复制搭建
MySQLDocker 主从复制搭建 MySQLDocker 的搭建 docker search mysql docker pull mysql/mysql-server:8.0.26 docker ...
【Java面试】什么是可重入，什么是可重入锁? 它用来解决什么问题?
一个工作了3年的粉丝,去一个互联网公司面试,结果被面试官怼了. 面试官说:"这么简单的问题你都不知道? 没法聊了,回去等通知吧". 这个问题是: "什么是可重入锁,以及它 ...

第二十一天python3 python的正则表达式re模块学习

第二十一天python3 python的正则表达式re模块学习的更多相关文章

随机推荐

热门专题