正则表达
动机(目的):
    1、处理文本成为计算机主要工作之一
    2、根据文本内容进行固定搜索是文本处理的常见工作
    3、为了快速方便的处理上述问题,正则表达式技术诞生,逐渐发展为一种单独技术被众多语言使用
定义:即高级文本匹配模式,提供了搜索,代替等功能,本质是由一些字符和特殊符号组成的字串。这个字串描述了字符和字符的重复行为,可以匹配某些特征的字符串集合。
正则表达式的特点
    1、方便进行检索和修改
    2、支持众多语言
    3、使用灵活变化多样
    4、文本处理,mongo存储某一类型,django、tornado路由,爬虫文本匹配
正则的规则和用法:
    import re
    re.findall(regex,string)
        1、功能:使用正则表达式匹配字符串
        2、参数:regex:正则表达式,string目标字符串
        3、返回值:匹配到的内容,一个列表
元字符:即正则表达式中含有特殊含义的字符
普通字符:
    1、元字符:abc...
    2、匹配规则:匹配相应的普通字符
    3、示例:re.findall('ab','fdsfdsbdab')#['ab']
使用 或 多个正则同时匹配
    1、元字符:|
    2、匹配规则:符号两侧的正则均能匹配(符号两侧不要加空格)
    3、示例:re.findall('ab|cd','fdcdsfcddsbabdab')#['cd', 'cd', 'ab', 'ab']
匹配单一字符
    1、元字符:.
    2、匹配规则:匹配任意一个字符 ‘\n’除外
    3、示例:
        1、re.findall('f.o','afdffoofds')#['ffo']
        2、re.findall('f.o','afdff\noofds')#[],不能匹配\n
匹配字符串开头
    1、元字符:^
    2、匹配规则:匹配一个字符串的开头位置
    3、示例:
        1、re.findall('^hello','hello world')#['hello']
        2、re.findall('^hello','ohello world')#[]
匹配字符串结尾
    1、元字符:$
    2、匹配规则:匹配一个字符串的结尾位置
    3、示例:
        1、re.findall('hello$','ohello hello')#['hello']
        2、re.findall('hello$','ohello hellof')# []
匹配重复0次或多次
    1、元字符:*
    2、匹配规则:匹配前面出现的正则表达式0次或多次
    2、示例:
        1、re.findall('ab*','abcdaabbfdb')# ['ab', 'a', 'abb']
匹配重复1次或多次:
    1、元字符:+
    2、匹配规则:匹配前面正则表达式至少出现一次
    3、示例:re.findall('ab+','abcdaabbfdb')#['ab', 'abb']
匹配重复0次或一次
    1、元字符:?
    2、匹配规则:匹配前面正则表达式0次或1次
    3、示例:re.findall('ab?','abcdaabbfdb')#['ab', 'a', 'ab']
匹配重复指定次数
    1、元字符:{N}
    2、匹配规则:匹配前面的正则表达式N次
    3、示例:re.findall('ab{2}','abcdaabbfdb')#['abb']
匹配重复指定参数范围
    1、元字符:{N,M}
    2、匹配规则:匹配前面正则表达式N次到M次(包括N和M)
    3、示例:re.findall('ab{1,3}','abcdaabbfdb')# ['ab', 'abb']
字符集匹配:
    1、元字符:[]
    2、匹配规则:匹配中括号中的字符集,或者字符集区间的一个字符
    3、示例:
        1、[0-9]:匹配任意一个数字字符
        2、[A-Z]:匹配任意一个大写字母
        3、[a-z]:匹配任意一个小写字母
        4、^[A-z][0-9a-z]{5}:匹配以大写字母开头,后面5位数字或小写字母
        5、re.findall('^[A-Z][0-9a-z]{5}','Hello1 join')# ['Hello1']

   5、[\u4e00-\u9fa5] :匹配任意一个中文
字符集不匹配:
    1、元字符:[^...]
    2、匹配规则:匹配出非字符集中任意一个字符
    3、[^0-9]:匹配除了0-9的任意字符
匹配任意数字(非数字)字符:
    1、元字符:\d等价于[0-9]        \D等价于[^0-9]
    2、匹配规则:\d匹配任意一个数字字符 \D匹配任意非数字字符
    3、示例:re.findall('1\d{10}','13333759329')#['13333759329']
匹配任意普字符或者特殊字符
    1、元字符:\w [_0-9a-zA-z] \W[^_0-9a-zA-z]
    2、匹配规则:\w匹数字字母下划线  \W匹配除了数字字母下划线的字符
    3、示例:
        1、re.findall('[A-z]\w*','Hello World')# ['Hello', 'World']
        2、re.findall('[A-Za-z]+-\d+','wangming-56')#['wangming-56']
匹配任意空字符或非空字符:
    1、元字符:\s  \S
    2、匹配规则:\s任意空字符 [ \n\0\t\r]空格 换行 回车制表符   \S任意非空字符
    3、示例:re.findall('hello\s+\w+\S','hello  lily hello lucy hellofdsf')#['hello  lily', 'hello lucy']
匹配字符串的开头和结尾:
    1、元字符:\A等价于^   \Z等价于$
    2、匹配规则:\A表示匹配字符串开头位置  \Z表示匹配字符串结尾位置
    3、示例:re.findall('\Aabc\Z','abc')#['abc']严格匹配abc
匹配单词边界或非单词边界:
    1、元字符:\b   \B
    2、匹配规则:\b匹配一个单词的边界  \B匹配一个单词的非边界
    3、说明:数字字母下划线和其他字符的交界处认为是单词的边界
    4、示例:
        1、re.findall('is','This is a test')# ['is', 'is']
        2、re.findall(r'\bis\b','This is a test')#['is']匹配到后面的is(\b为退格有特殊含义所以要加r)
元字符总结:
    1、匹配单个字符:. \d \D \w \W \s \S [...] [^...]
    2、匹配重复次数:* + ? {N} {N,M}
    3、匹配字符串位置:^ $ \A \Z \b \B
    4、其他:|
r子串和转义(\)
    r 将字符变为raw字符串,不进行字符串的转义
    示例:re.findall('\\bis\\b','This is a test')等价于re.findall(r'\bis\b','This is a test')

贪婪和非贪婪:
    1、和重复次数不确定的元字符相关:* + ? {N,M}
    2、贪婪模式:在使用重复元字符的时候,元字符的匹配总是尽可能多的向后匹配更多的内容,贪婪模式为默认模式
        示例:re.findall('ab*','abbbbbbbbgab')#['abbbbbbbb', 'ab']尽可能多的匹配b
    3、非贪婪模式:尽可能少的匹配内容,只要满足正则条件即可
        示例:re.findall('ab*?','abbbbbbbbgab')# ['a', 'a']尽可能少的匹配b

import re

str = 'Hello 1234567 World_This is a Regex Demo'
res = re.match(r'^He.*(\d+)',str)
print(res.group(1))#(\d+)匹配到的是7,.*平匹配到的是llo 123456
res2 = re.match(r'^He.*?(\d+)',str)
print(res2.group(1))#(\d+)匹配到的是1234567,.*?匹配到的是llo ,

正则表达式的分组:
    1、使用()为正则表达式分组
    2、(ab):表示给ab分了一个子组
    3、正则表达式的子组用()表示,增加子组后对整体的匹配没有影响
    4、每个正则表达式可以有多个子组,子组由外到内由左到右为第一第二第三......子组
    5、子组表示一个内部整体,很多函数可以单独提取子组的值
    6、子组可以改变重复行为,将子组作为整体重复
        示例:re.match('(ab)+','ababfhdsabdfbsf').group(0)#'abab'
    7、捕获组和非捕获组(命名组和非命名组)
        1、格式:(?P<name>regex)
        2、作用:
            1、某些函数可以通过名字提取子组内容,或者通过名字进行键值对的生成
            2、起了名字的子组可以通过名称重复使用
                示例:res = re.match('(?P<str>ab)cd(?P=str)','abcdab').group()# 'abcdab'

      说明:上面的正则相当于是一个子组即res.group(0)#'abcdab',res.group(1)# 'ab',res.group(2)#报错

      与这样的匹配是不同的:res = re.match('(ab)cd(ab)','abcdab') ;res.group(0)#'abcdab',res.group(1)# 'ab',res.group(2)#'ab'  
练习:
    1、匹配长度为8-10为的密码,必须以字母开头,数字字母下划线组成
        re.findall(r'^[a-zA-z]\w{7,9}$','xfjsdjfk56')
    2、匹配身份证号
        re.findall(r'\d{17}[x\d]','410422199212202556')

re模块
    1、complie(pattern, flags=0)
        1、功能:获取正则表达式对象
        2、参数:
            1、pattern:正则表达式
            2、flags:功能标志位,提供正则表达式结果的辅助功能
        3、返回值:返回相应的正则对象
        4、说明:
            1、compile函数返回值的属性函数和re模块属性函数有相同的部分
            2、他们的功能完全相同
            3、compile返回值对象属性函数中pattern和flags部分,因为这两个参数内容在compile生成对象时已经指明而re模块直接调用这些函数时则需要传入,
            4、compile返回值对象属性函数参数中有pos和endpos参数,可以指明匹配目标字符串的起始和终止位置,而re模块直接调用这些函数时没有这个
    2、findall(string,pos ,endpos)
        1、功能:将正则表达式匹配到的内容存入列表返回
        2、参数:要匹配的目标字符串
        3、返回值:返回匹配到内容的列表,如果正则表达式中有子组则返回子组元组的列表
    3、spilt(regex,string):
        1、功能:以正则表达式切割字符串
        2、参数
        3、返回值:分割后的内容放入列表
    4、sub()
        1、功能:用替换字符串替换正则表达式匹配到的内容
        2、参数
        3、返回值:返回替换后的字符串
    5、subn():
        1、功能:同sub
        2、参数:同sub
        3、返回值:返回一个元组,元组中第一个元素为替换后的字符串,第二个为替换的次数
    6、groupindex:compile对象属性,得到由捕获组名和第几个子组数字组成的字典
    7、groups:compile对象属性,得到一共有多少个子组

import re

pattern = r'((?P<word>ab)cd(ef))'
#创建正则表达式对象
obj = re.compile(pattern) l = obj.findall('abcdefghinabcdef')
print(l) l1 = re.split(r'\s+','hello world nihao china')
print(l1) s = re.sub(r'[A-Z]','##','Hello World',1)#不给最后一个参数默认全部替换
print(s)# ##ello World s2 = re.subn(r'[A-Z]','##','Hello World',1)
print(s2)#('##ello World', 1) print(obj.groupindex)#{'word': 2} print(obj.groups)#

8、finditer()
        1、功能:同findall查找所有正则匹配到的内容
        2、参数:同findall
        3、返回值:返回一个迭代器,迭代的每一项都是一个matchobj
    9、match()
        1、功能:匹配一个字符串开头的位置
        2、参数:目标字符串
        3、返回值:如果匹配到返回一个matchobj,如果没有匹配到返回None
    10、search()
        1、功能:同match,只是可以匹配到任意位置,只能匹配一处
        2、参数:目标字符串
        3、返回值:如果匹配到返回一个matchobj,如果没有匹配到返回None
    11、fullmatch()
        1、功能:完全匹配,整个目标字符串完全由正则pp
        2、参数:目标字符串
        3、返回值:如果匹配到返回一个matchobj,如果没有匹配到返回None

import re 

obj = re.compile(r'foo')

iter_obj = obj.finditer('fdfoo,food the')

for i in iter_obj:
print(i.group())
print('**************')
#match匹配开头
try:
m_obj = obj.match('qfoo,food on the jfdksf ')
print(m_obj.group())
except AttributeError:
print('match none')
#search匹配任意位置
try:
m_obj = obj.search('qfoo,food on the jfdksf ')
print(m_obj.group())
except AttributeError:
print('match none')

12、match对象属性及函数
        1、属性
            1、re
            2、pos
            3、endpos
            4、lastgroup
            5、lastindex
        2、方法:
            1、start()
            2、end()
            3、span()
            4、group()
                1、功能:获取match对象匹配的内容
                2、参数:默认为0表示整体匹配内容,>=1表示获取某个子组的匹配内容
                3、返回值:返回对应的内容
            5、groups()
            6、groupdict()

import re

re_obj = re.compile('(ab)cd(?P<dog>ef)')
match_obj = re_obj.search('hi ,fkdfkabcdeffdk') #match对象属性
print('re:',match_obj.re)#re.compile('(ab)cd(?P<dog>ef)') print('pos:',match_obj.pos)#0,匹配目标字符串的开始位置 print('endpos:',match_obj.endpos)#18,匹配目标字符串的终止位置+1
print('lastgroup:',match_obj.lastgroup)#dog,最后一个分组的名称,最后一个分组如果没有名称则返回NOne
print('lastindex:',match_obj.lastindex)#2,分组的个数(最后一组是第几组)
print('**********************************')
#match属性的函数
print('start():',match_obj.start())#9获取匹配内容在字符串中的开始位置 print('end():',match_obj.end())#15,获取匹配内容在字符串中结束的位置+1 print('span():',match_obj.span())#(9, 15),获取匹配内容在字符串中的起止位置 print('group():',match_obj.group())#abcdef,获取match对象匹配的内容,默认为0表示整体匹配内容,
print('group():',match_obj.group(1))#ab,>=1表示获取某个子组的匹配内容 print('group():',match_obj.group(2))#ef print('groups():',match_obj.groups())#('ab', 'ef'),获取所有子组中的内容 print('groupdict():',match_obj.groupdict())#{'dog': 'ef'},返回所有捕获组构成的字典,如过没有捕获组返回字典,名字为键

flags:re直接调用的匹配函数大多有flags参数。功能为辅助正则匹配的标志位

1、I(IGNORECASE):忽略大小写
    2、S(DOTALL):匹配换行对.元字符起作用
    3、M(MULTILINE):开头结尾计算换行 对^ $起作用,对\A \Z不起作用
    4、X(VERBOSE):让正则能以#添加注释
    说明:同时可以添加多个flags,比如:re.I|re.S

import re 

re_object = re.compile('abcD',re.I)
l = re_object.findall('himabcd,ADABCDf')
print(l)#['abcd', 'ABCD'] s = '''hello world\nnihao china'''
l1 = re.findall('.+',s,re.S)
print(l1)#['hello world\nnihao china']
#^ $匹配每一行的开头结尾
obj = re.search('^nihao',s,re.M)
print(obj.group())#nihao obj = re.search('world$',s,re.M)
print(obj.group())#world re_obj = re.compile('''(ab)#这是第一个分组\ncd\n(?P<dog>ef)#这是第二个分组''',re.X)
print(re_obj.search('abcdefgh').group())#abcdef

python_regex的更多相关文章

随机推荐

  1. 前端技术之:webpack热模块替换(HMR)

    第一步:安装HMR中间件: npm install --save-dev webpack-hot-middleware   第二步:webpack配置中引入webpack对象     const we ...

  2. DP动态规划学习笔记

    作为考察范围最广,考察次数最多的算法,当然要开一篇博客来复习啦. 子曰:温故而知新,可以为师矣 我复习DP时有一些自己对DP的理解,也就分享出来吧. ——正片开始—— 动态规划算法,即Dynamic ...

  3. NOIP模拟21+22

    模拟21确实毒瘤...考场上硬刚T3 2.5h,成功爆零 T1.数论 看这题目就让人不想做,考场上我比较明智的打完暴力就弃掉了,没有打很久的表然后找规律. 正解貌似是乱搞,我们考虑一个比较显然的结论: ...

  4. IoTClient开发4 - ModBusTcp协议服务端模拟

    前言 上篇我们实现了ModBusTcp协议的客户端读写,可是在很多时候编写业务代码之前是没有现场环境的.总不能在客户现场去写代码,或是蒙着眼睛写然后求神拜佛不出错,又或是在办公室部署一套硬件环境.怎么 ...

  5. Linux系统重启Oracle-12c步骤

    Linux系统重启Oracle-12c步骤 1. 使用oracle用户登录: [root@Oracle-12c /]# su – oracle 2. 登录oracle登陆管理员账号: [oracle@ ...

  6. Docker(二) Dockerfile 使用介绍

    前言 图解Docker 镜像.容器和 Dockerfile 的关系: 一.Dockerfile的概念 Docker 镜像是一个特殊的文件系统,除了提供容器运行时所需的程序.库.资源.配置等文件外,还包 ...

  7. hdu 1205 吃糖果 (抽屉原理<鸽笼原理>)

    吃糖果Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 65535/32768 K (Java/Others)Total Submissi ...

  8. nyoj 844-A+B Problem(V) (string[::-1] 字符串反转)

    844-A+B Problem(V) 内存限制:64MB 时间限制:1000ms 特判: No 通过数:14 提交数:17 难度:1 题目描述: 做了A+B Problem之后,Yougth感觉太简单 ...

  9. 【SSM Spring 线程池 OJ】 使用Spring线程池ThreadPoolTaskExecutor

    最近做的Online Judge项目,在本地判题的实现过程中,遇到了一些问题,包括多线程,http通信等等.现在完整记录如下: OJ有一个业务是: 用户在前端敲好代码,按下提交按钮发送一个判题请求给后 ...

  10. objc里的伪指针TaggedPointer

    如果你看过我前面两篇objc函数枢纽msgSend和你印象中的NSString是这样吗,相信已经多次看过它的身影了,到底它是何物何作用,我今日就来揭开谜团.我之所为称呼它为伪指针,是因为它像幽灵一样, ...