一、什么是正则表达式?

  • 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
  • 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

二、正则表达式的匹配规则

1.表示字符

  • ·:匹配任意除换行符'\n'外的字符,但是在DOTALL模式中也可以匹配换行符'\n'
  • \:转义字符,使后一个字符改变原来的意思,如果字符串中想匹配*,可以使用\*,也可以使用字符集[*]
  • [...]:字符集,匹配字符集中列出的任意字符。字符可以逐个列出,也可以给出范围,比如[a-z],[0-9],第一个字符是^表示取反。所有特殊字符在字符集中都失去其原有的特殊含义。如果想使用']','-'或者'^',可以在前面加上\,或者将]或者-放在首位,将^放在非首位

2.预定义字符集(可写在字符集[]中)

  • \d:数字[0-9]
  • \D:非数字[^0-9]
  • \s:空白字符[<空格>,\t,\n,\r,\f,\v]
  • \S:非空白字符[^\s]
  • \w:单词字符[a-zA-Z0-9_]
  • \W:非单词字符[^\w]

3.表示数量

  • *:匹配前一个字符0次或无限次,即可有可无
  • +:匹配前一个字符出现1次或者无限次,即至少有1次
  • {m}:匹配前一个字符出现m次
  • {m,}:匹配前一个字符至少出现m次
  • {,n}:匹配前一个字符至多出现n次
  • {m,n}:匹配前一个字符出现从m到n次

4.表示边界

  • ^:匹配字符串开头。在多行模式中匹配每一行的开头
  • $:匹配字符串结尾。在多行模式中匹配每一行的结尾
  • \A:仅匹配字符串开头
  • \Z:仅匹配字符串结尾
  • \b:匹配单词边界,\w和\W之间
  • \B:匹配非单词边界,[^\b]

5.匹配分组

  • |:匹配左右任意一个表达式
  • (...):被括起来的表达式作为一个分组,从表达式左边开始,每遇到一个'(',编号+1。分组表达式作为一个整体,后面可接数量词。表达式中的|仅在该分组中有效
  • (?P<name>):分组,除了原有的编号以外,再给分组取一个别名
  • (?P=<name>):引用别名为<name>的分组匹配到的字符串
  • \<number>:引用编号为<number>的分组匹配到的字符串

6.特殊构造(不作为分组)

  • (?:...):(...)的不分组版本,用于使用'|'或后面接上数量词,比如(?:[1-9]?\d|100)表示匹配数字0-100,(?:abc){2}表示匹配abcabc
  • 剩下的一些不常见,略

三、re模块

在 Python中,我们可以使用内置的 re 模块来使用正则表达式。与大多数编程语言相同,正则表达式里使用'\'作为转义字符,这就可能造成反斜杠困扰。Python里的原生字符串很好地解决了这个问题,只需要在字符串前面加上'r'前缀。

re模块的一般使用步骤:

  1. 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象

  2. 通过 Pattern 对象提供的一系列方法对文本进行匹配查找

1.compile函数

  • compile 函数用于编译正则表达式,生成一个 Pattern 对象。必须传入的第一个参数是'规则字符串',另外可以通过第二个参数(flags)来指定匹配模式。
  • 常见的匹配模式:
  1. re.I(re.IGNORECASE): 忽略大小写
  2. re.M(MULTILINE): 多行模式,改变’^’和’$’的行为
  3. re.S(DOTALL): 点任意匹配模式,改变’.’的行为,可以匹配'\n'
    import re
    
    # 将正则表达式编译成 Pattern对象,并指定匹配模式为点任意匹配模式
    pattern = re.compile(r'\d+',re.S)

2.Pattern 对象的一些常用方法

  • match方法

    • match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。
    • 它的一般使用形式如下:
      match(string[, pos[, endpos]])

      其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。因此,当你不指定 pos 和 endpos 时,match 方法默认匹配字符串的头部。

    • 当匹配成功时,返回一个 Match 对象,如果没有匹配上,则返回 None。
    • Match对象常用的方法:
      • group(([group1, …]):用于获得一个或多个分组匹配的字符串,如果传入多个分组编号,则返回的结果为元组形式。当要获得整个匹配的子串时,可直接使用 group() 或 group(0);
      • groups():获得所有分组匹配到的字符串所构成的元组
      • start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;
      • end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;
      • span([group]) 方法返回 (start(group), end(group)),获取分组匹配的子串在整个字符串中的起始和结束位置构成的元组。
      • 通过一些例子来熟悉一下:
        In [1]: import re
        
        In [2]: pattern = re.compile(r"(\w+) (\d+)")
        
        In [3]: m = pattern.match('hello 123')
        
        In [4]: m.group(1)
        Out[4]: 'hello' In [5]: m.group(1,2)
        Out[5]: ('hello', '123') In [6]: m.group()
        Out[6]: 'hello 123' In [7]: m.groups()
        Out[7]: ('hello', '123') In [8]: m.start(1)
        Out[8]: 0 In [9]: m.start(2)
        Out[9]: 6 In [10]: m.end(1)
        Out[10]: 5 In [11]: m.span(1)
        Out[11]: (0, 5) In [12]: m.span(2)
        Out[12]: (6, 9)
  • search方法

    • search 方法用于查找字符串的任何位置,它也是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果
    • 它的一般使用形式如下:
      search(string[, pos[, endpos]])

      其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。

    • 看看例子
      >>> import re
      >>> pattern = re.compile('\d+')
      >>> m = pattern.search('one12twothree34four') # 这里如果使用 match 方法则不匹配
      >>> m
      <_sre.SRE_Match object at 0x10cc03ac0>
      >>> m.group()
      '12'
      >>> m = pattern.search('one12twothree34four', 10, 30) # 指定字符串区间
      >>> m
      <_sre.SRE_Match object at 0x10cc03b28>
      >>> m.group()
      '34'
      >>> m.span()
      (13, 15)
  • findall方法

    • 上面的 match 和 search 方法都是一次匹配,只要找到了一个匹配的结果就返回。然而,在大多数时候,我们需要搜索整个字符串,获得所有匹配的结果。
    • findall 方法的使用形式如下:
      findall(string[, pos[, endpos]])

      其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。

    • findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。
    • 看个例子:
      import re
      
      #re模块提供一个方法叫compile模块,提供我们输入一个匹配的规则
      #然后返回一个pattern实例,我们根据这个规则去匹配字符串
      pattern = re.compile(r'\d+\.\d*') #通过partten.findall()方法就能够全部匹配到我们得到的字符串
      result = pattern.findall("123.141593, 'bigcat', 232312, 3.15") #findall 以 列表形式 返回全部能匹配的子串给result
      for item in result:
      print(item)

      运行结果:

      123.141593
      3.15
  • finditer方法

    • finditer 方法的行为跟 findall 的行为类似,也是搜索整个字符串,获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果(Match 对象)的迭代器。
    • 举例:
      In [1]: import re
      
      In [2]: pattern = re.compile(r"\d+")
      
      In [3]: iter = pattern.finditer('hello123world456  haha789')
      
      In [4]: iter
      Out[4]: <callable_iterator at 0x7fb824fe2a90> In [5]: for m in iter:
      ...: print(m.group())
      ...:
      123
      456
      789
  • split方法

    • split 方法按照能够匹配的子串将字符串分割后返回列表
    • 它的使用形式如下:
      split(string[, maxsplit])

      其中,maxsplit 用于指定最大分割次数,不指定将全部分割。

    • 举个例子:
      In [1]: import re
      
      In [2]: pattern = re.compile(r"[\d\s]")
      
      In [3]: pattern.split('hello1word2aaa bbb')
      Out[3]: ['hello', 'word', 'aaa', 'bbb'] In [4]: pattern.split('hello1word2aaa bbb',2)
      Out[4]: ['hello', 'word', 'aaa bbb']
  • sub方法

    • sub 方法用于替换。
    • 它的使用形式如下:
      sub(repl, string[, count])

      其中,repl 可以是字符串也可以是一个函数:

      • 如果 repl 是字符串,则会使用 repl 去替换字符串每一个匹配的子串,并返回替换后的字符串,另外,repl 还可以使用 id 的形式来引用分组,但不能使用编号 0;
      • 如果 repl 是函数,这个方法应当只接受一个参数(Match 对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
      • count 用于指定最多替换次数,不指定时全部替换。
        In [1]: import re
        
        In [2]: pattern = re.compile(r'\d+')
        
        In [3]: pattern.sub('100','hello20 world30')#将所有匹配到的数据替换成100
        Out[3]: 'hello100 world100' In [4]: pattern.sub('100','hello20 world30',1)#只替换第一个数据为100
        Out[4]: 'hello100 world30' In [5]: def add(temp):
        ...: '''将匹配到的数据加1'''
        ...: strNum = temp.group()
        ...: num = int(strNum)+1
        ...: return str(num)
        In [6]: pattern.sub(add,'hello20 world30')#将所有匹配到的数据加1
        Out[6]: 'hello21 world31' In [7]: pattern.sub(add,'hello20 world30',1)#只将匹配到的第一个数据加1
        Out[7]: 'hello21 world30'

四、贪婪模式与非贪婪模式

  • 贪婪模式:在整个表达式匹配成功的前提下,尽可能多的匹配
  • 非贪婪模式:在整个表达式匹配成功的前提下,尽可能少的匹配
  • 在表示数量的"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪
    In [1]: import re
    
    In [2]: pattern = re.compile(r'\d+')
    
    In [3]: pattern.match('123456789').group()
    Out[3]: '123456789' In [4]: pattern = re.compile(r'\d+?')#关闭贪婪模式 In [5]: pattern.match('123456789').group()#非贪婪模式下,?只匹配一个字符
    Out[5]: '1' In [6]: pattern = re.compile(r'<div>.*</div>') In [7]: pattern.match('<div>test1</div>bb<div>test2</div>').group()
    Out[7]: '<div>test1</div>bb<div>test2</div>' In [8]: pattern = re.compile(r'<div>.*?</div>')#关闭贪婪模式 In [9]: pattern.match('<div>test1</div>bb<div>test2</div>').group()
    Out[9]: '<div>test1</div>'

python中re模块的使用(正则表达式)的更多相关文章

  1. 正则表达式与Python中re模块的使用

    正则表达式与Python中re模块的使用 最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...

  2. 正则表达式与python中re模块

    一个网站,正则表达式入门的,很好 http://www.jb51.net/tools/zhengze.html 下面这个包含对python中re的介绍,也是很不错的http://www.w3cscho ...

  3. Python中re模块的使用

    #table-1 thead,#table-1 tr { border-top-width: 1px; border-top-style: solid; border-top-color: rgb(2 ...

  4. python 历险记(五)— python 中的模块

    目录 前言 基础 模块化程序设计 模块化有哪些好处? 什么是 python 中的模块? 引入模块有几种方式? 模块的查找顺序 模块中包含执行语句的情况 用 dir() 函数来窥探模块 python 的 ...

  5. 第11.18节 Python 中re模块的匹配对象

    匹配对象是Python中re模块正则表达式匹配处理的返回结果,用于存放匹配的情况.老猿认为匹配对象更多的应该是与组匹配模式的功能对应的,只是没有使用组匹配模式的正则表达式整体作为组0. 为了说明下面的 ...

  6. Python中optionParser模块的使用方法[转]

    本文以实例形式较为详尽的讲述了Python中optionParser模块的使用方法,对于深入学习Python有很好的借鉴价值.分享给大家供大家参考之用.具体分析如下: 一般来说,Python中有两个内 ...

  7. python中threading模块详解(一)

    python中threading模块详解(一) 来源 http://blog.chinaunix.net/uid-27571599-id-3484048.html threading提供了一个比thr ...

  8. 【转】关于python中re模块split方法的使用

    注:最近在研究文本处理,需要用到正则切割文本,所以收索到了这篇文章,很有用,谢谢原作者. 原址:http://blog.sciencenet.cn/blog-314114-775285.html 关于 ...

  9. Python中的模块介绍和使用

    在Python中有一个概念叫做模块(module),这个和C语言中的头文件以及Java中的包很类似,比如在Python中要调用sqrt函数,必须用import关键字引入math这个模块,下面就来了解一 ...

  10. python中导入模块的本质, 无法导入手写模块的解决办法

    最近身边一些朋友发生在项目当中编写自己模块,导入的时候无法导入的问题. 下面我来分享一下关于python中导入模块的一些基本知识. 1 导入模块时寻找路径 在每一个运行的python程序当中,都维护了 ...

随机推荐

  1. STL——容器(deque)deque 的删除 clear() erase()

    deque.clear(); //移除容器的所有数据 1 #include <iostream> 2 #include <deque> 3 4 using namespace ...

  2. Redis存储对象(序列化和反序列化)

    代码以及实例: package com.hp.test; import redis.clients.jedis.Jedis; import java.io.*; public class Test3 ...

  3. Object not found! The requested URL was not found on this server.... 报错解决方案

    服务器(centos6.5) lnmp 报错如下 Object not found! The requested URL was not found on this server. The link ...

  4. vscode 编辑python文件

    1 安装python 自动姿势 Chinese # 换成中文 path Autocomplete 路径自动补全 Vetur vue文件补全 配置文件 首选项-设置 应用程序 在 seyying.jso ...

  5. 六个步骤,从零开始教你搭建基于WordPress的个人博客

    摘要:WordPress是使用PHP语言开发的博客平台,是免费开源的.用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站,也可以把WordPress当作一个内容管理系统(CMS)来使用 ...

  6. day109:MoFang:好友列表显示&添加好友页面初始化&添加好友后端接口

    目录 1.好友列表 2.添加好友-前端 3.服务端提供添加好友的后端接口 1.好友列表 1.在用户中心页面添加好友列表点击入口 html/user.html,用户中心添加好友列表点击入口,代码: &l ...

  7. Java——排序算法

    java排序从大的分类来看,可以分为内排序和外排序:其中,在排序过程中只使用了内存的排序称为内排序:内存和外存结合使用的排序成为外排序. 下面讲的都是内排序. 内排序在细分可以这样分: 1.选择排序: ...

  8. 基于SpringBoot+Mybatis+MySQL5.7的轻语音乐网

    一个基于SpringBoot+Mybatis+MySQL5.7的轻语音乐网站项目 1.主要用到的技术: 使用maven进行项目构建 使用Springboot+Mybatis搭建整个系统 使用ajax连 ...

  9. Python 刷题笔记

    Python 刷题笔记 本文记录了我在使用python刷题的时候遇到的知识点. 目录 Python 刷题笔记 选择.填空题 基本输入输出 sys.stdin 与input 运行脚本时传入参数 Pyth ...

  10. Mysql联合索引的最左前缀原则以及b+tree

    软件版本mysql5.7 根据官网的文档 https://dev.mysql.com/doc/refman/5.7/en/multiple-column-indexes.html 查询条件要符合最左原 ...