python学习(十四)正则表达式

原文链接

## 什么是正则表达式
`正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑`
## 正则表达式规则


## 正则表达式注意问题
### 数量词的贪婪模式与非贪婪模式
`正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的，总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。`
例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。
而如果使用非贪婪的数量词”ab*?”，将找到”a”。
*表示匹配前一个字符0个或多个，加上?后匹配前一个字符0个或1个，使匹配规则变为非贪婪。

### 转义问题
由于字符串中出现特殊字符要采取转义，采用'\'可以进行转义。如果字符串中出现'\',需要采用'\\'才可以转义为'\',
Python里的原生字符串很好地解决了这个问题，在字符串前加上r，表示原生字符串，不用考虑转义问题。
看下面的例子：

import re

s = 'AB\\-001'

print(s)

s = r'AB\-001'

print(s)

使用原生字符串不用写转义的'\'了。
## 正则表达式的应用举例

`1 可以re模块中的match函数实现基本的匹配`

import re

result = re.match(r'^\d{3}\-\d{3,8}$','010-12345')

print(result)

result2 = re.match(r'^\d{3}\-\d{3,8}$','010 12345')

print(result2)

`2 可以实现split切割字符串`

#切串

s1 = 'a b c'

print(s1.split(' ') )

s2 = re.split(r'\s+', s1)

print(s2)

s3 = re.split(r'[\s\:\,]+','a,b c::d e, f')

print(s3)

pattern = re.compile(r'\d+')

splitrs = re.split(pattern, 'one1two2three3four45six797five')

if sr:

print(splitrs)

`3 对匹配规则进行分组`

m = re.match(r'^(\d{3})-(\d{3,8})$','010-12345')

print(m)

print(m.group(0))

print(m.group(1))

print(m.group(2))

print(m.groups())

`4 贪婪匹配和非贪婪匹配`

r1 = re.match(r'^(\d+)(0*)$','102300').groups()

print(r1)

r2 = re.match(r'^(\d+?)(0*)$','102300').groups()

print(r2)

`5 编译生成pattern再匹配`

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

r3 = re_telephone.match('010-12345').groups()

print(r3)

r4 = re_telephone.match('043-12345').groups()

print(r4)

match 的另一种写法是这样的

pattern = re.compile(r'hello')

result1 = re.match(pattern, 'hello')

result2 = re.match(pattern, 'helloo, aaa')

result3 = re.match(pattern, 'helo AAB')

result4 = re.match(pattern, 'helloww')

if result1:

print(result1 )

else:

print('failed!!!')

if result2:

print(result2.group() )

else:

print('failed!!!')

if result3:

print(result3.group() )

else:

print('failed!!!')

if result4:

print(result4.group() )

else:

print('failed!!!')

re.compile返回值包含如下属性和函数：
属性：
`1.string: 匹配时使用的文本。`
`2.re: 匹配时使用的Pattern对象。`
`3.pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。`
`4.endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。`
`5.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。`
`6.lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。`
函数：
`1.group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；
不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。`
`2.groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。`
`3.groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。`
`4.start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。`
`5.end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。`
`6.span([group]):
返回(start(group), end(group))。`
`7.expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组，但不能使用编号0。\id与\g是等价的；
但\10将被认为是第10个分组，如果你想表达\1之后是字符’0’，只能使用\g0。`

下面的例子将上述属性和函数打印出来，读者可以打印看看结果

#匹配：单词+空格+单词+任意字符

m = re.match(r'(\w+) (\w+)(?P<sign>.*)','hello world!')

print('m.string is %s' %(m.string) )

print('m.re: %s' %(m.re) )

print('m.pos: %d' %(m.pos))

print('m.endpos: %d' %(m.endpos))

print('m.lastindex: %d' %(m.lastindex))

print('m.lastgroup: %s' %(m.lastgroup))

print('m.groups: ' , m.groups())

print('m.group: ' , m.group())

print('m.group(1,2): ' , m.group(1,2))

print('m.groupdict():', m.groupdict())

print('m.start(2):',m.start(2))

print('m.end(2):',m.end(2))

print('m.span(2):',m.span(2))

print("m.expand(r'\g \g\g'):", m.expand(r'\2 \1\3') )

　除此之外还有其他的几个函数　

`6 re.search(pattern, string[, flags])`
search方法与match方法极其类似，区别在于match()函数只检测re是不是在string的开始位置匹配，search()会扫描整个string查找匹配

import re

pattern = re.compile(r'world')

sr = re.search(pattern, 'hello world!')

if sr:

print(sr.group())

`7 re.findall(pattern, string[, flags])`
搜索string，以列表形式返回全部能匹配的子串。

pattern = re.compile(r'\d+')

find = re.findall(pattern, 'one1two2three3four45six797five')

if find:

print(find)

`8 re.finditer(pattern, string[, flags])`
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。

pattern = re.compile(r'\d+')

finditer = re.finditer(pattern, 'one1two2three3four45six797five')

if(finditer):

print(finditer)

for m in finditer:

print(m.group())

`9 re.sub(pattern, repl, string[, count])`
使用repl替换string中每一个匹配的子串后返回替换后的字符串,首先根据pattern在string中匹配，找到子串返回列表，然后根据repl规则，
替换列表中的字符串。

pattern = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world'

print(re.sub(pattern,r'\2 \1', s))

def func(m):

return m.group(1).title() + ' '+ m.group(2).title()

sub = re.sub(pattern, func, s)

print(sub)

`10 re.subn(pattern, repl, string[, count])`
返回一个tuple，tuple两个元素，第一个为re.sub(pattern, repl, string[, count])的结果，第二个为匹配的子串个数。

pattern = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world'

print(re.subn(pattern,r'\2 \1', s))

def func(m):

return m.group(1).title() + ' '+ m.group(2).title()

sub = re.subn(pattern, func, s)

print(sub)

到目前为止正则表达式基本知识介绍完毕，谢谢关注我的公众号

python学习(十四)正则表达式的更多相关文章

Python学习十四：filter()
Python 中内置了filter()函数用于过滤序列. 使用方法: filter()接收一个函数和一个序列. filter()把传入的函数依次作用于每一个元素,然后依据返回值是True还是False ...
python 基础(十四) 正则表达式
正则表达式概念: 正则匹配就是一个模糊的匹配只要符合我的匹配规则就会认为是正确的数据(精确的匹配) 1.[] #代表原子表把想要匹配的内容写入原子表中匹配包含的任意一位字符 [a] ...
初学 Python（十四）——生成器
初学 Python(十四)--生成器初学 Python,主要整理一些学习到的知识点,这次是生成器. # -*- coding:utf-8 -*- ''''' 生成式的作用: 减少内存占有,不用一次性 ...
Python第十四天序列化 pickle模块 cPickle模块 JSON模块 API的两种格式
Python第十四天序列化 pickle模块 cPickle模块 JSON模块 API的两种格式目录 Pycharm使用技巧(转载) Python第一天安装 shell 文件 Py ...
孤荷凌寒自学python第二十四天python类中隐藏的私有方法探秘
孤荷凌寒自学python第二十四天python类中隐藏的私有方法探秘 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 今天发现了python的类中隐藏着一些特殊的私有方法. 这些私有方法不管我 ...
孤荷凌寒自学python第十四天python代码的书写规范与条件语句及判断条件式
孤荷凌寒自学python第十四天python代码的书写规范与条件语句及判断条件式 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 在我学习过的所有语言中,对VB系的语言比较喜欢,而对C系和J系 ...
Python第二十四天 binascii模块
Python第二十四天 binascii模块 binascii用来进行进制和字符串之间的转换 import binascii s = 'abcde' h = binascii.b2a_hex(s) # ...
python学习第四讲,python基础语法之判断语句,循环语句
目录 python学习第四讲,python基础语法之判断语句,选择语句,循环语句一丶判断语句 if 1.if 语法 2. if else 语法 3. if 进阶 if elif else 二丶运算符 ...
python学习第四次笔记
python学习第四次记录列表list 列表可以存储不同数据类型,而且可以存储大量数据,python的限制是 536870912 个元素,64位python的限制是 1152921504606846 ...

随机推荐

好用的MarkDown编辑器
MarkDown是编写文档非常有用的一个好工具
【Linux 运维】 date的使用
date的使用一.常用时间格式 #年.月.日四位年大写,其余小写 [root@localhost ~]# date +%Y #长格式显示四位数年 [root@localhost ~]# date ...
Windows下使用7-zip命令自动备份文件
在上一篇博文中,介绍了使用WinRAR自动备份文件,后来改用了腾讯云服务器,上面默认没有安装WinRAR,只有7-zip,又不想在服务器上安装许多软件,就查了下7-zip的命令,贴出来备忘~ 系统环境 ...
深入react技术栈解读
1. react实现virtual DOM ,如果要改变页面的内容,还是需要执行DOM操作,比原生操作DOM多了virtualDOM的操作(计算,对比等), 应该是更耗性能??? 2. react特点 ...
手机上Uncaught ReferenceError: __WEBPACK_AMD_DEFINE_ARRAY__ is not defined的错误
问题: vue2.0和webpack2.X的写的项目在电脑的浏览器上打开正常,在手机浏览器中访问页面的时候不能正常显示,空白. 通过chrome的真机调试chrome://inspect/#devic ...
第九周个人PSP
11.10--11.16本周例行报告 1.PSP(personal software process )个人软件过程. C(类别) C(内容) ST(开始时间) ET(结束时间) INT(间隔时间) ...
“Hello World！”团队第三周召开的第二次会议
今天是我们团队“Hello World!”团队第三周召开的第二次会议.博客内容: 一.会议时间二.会议地点三.会议成员四.会议内容五.todo list 六.会议照片七.燃尽图一.会议时间 ...
J2EE,J2SE,J2ME,JDK,SDK,JRE,JVM区别（转载）
转载地址:http://blog.csdn.net/alspwx/article/details/20799017 一.J2EE.J2SE.J2ME区别 J2EE——全称Java 2 Enterpri ...
PAT 甲级 1040 Longest Symmetric String
https://pintia.cn/problem-sets/994805342720868352/problems/994805446102073344 Given a string, you ar ...
用到的C++标准库
std::set<type>, 模板写的平衡二叉树的集合容器, method: insert, count, std:map<int, string>, 映射和多重映射基于某一 ...

python学习(十四)正则表达式

python学习(十四)正则表达式的更多相关文章

随机推荐

热门专题