修改字符串

我们已经介绍完如何对字符进行搜索,接下来我们讲讲正则表达式如何修改字符串。

正则表达式使用以下方法修改字符串:

方法 用途
split() 在正则表达式匹配的地方进行分割,并返回一个列表
sub() 找到所有匹配的子字符串,并替换为新的内容
subn() 跟 sub() 干一样的勾当,但返回新的字符串以及替换的数目

分割字符串

正则表达式的 split() 方法将字符串在匹配的地方进行分割,并将分割后的结果作为列表返回。它的做法其实很像字符串的 split() 方法,但这个可以使用更加广泛的分隔符。你猜的没错,它同时提供了一个模块级别的函数:re.split()

.split(string[, maxsplit=0])

通过正则表达式匹配来分割字符串。如果在 RE 中,你使用了捕获组,那么它们的内容会作为一个列表返回。你可以通过传入一个 maxsplit 参数来设置分割的数量。如果 maxsplit 的值是非 0,表示至多有 maxsplit 个分割会被处理,剩下的内容作为列表的最后一个元素返回。

下边例子中,分隔符是任何非字母数字字符:

  1. >>> p = re.compile(r'\W+')
  2. >>> p.split('This is a test, short and sweet, of split().')
  3. ['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
  4. >>> p.split('This is a test, short and sweet, of split().', 3)
  5. ['This', 'is', 'a', 'test, short and sweet, of split().']

复制代码

有时候你可能不仅对分隔符之间的内容感兴趣,你可能对分隔符本身(就是正则表达式匹配的内容)也同样感兴趣。如果使用了捕获组,那么作为分隔符的值也会被返回:

  1. >>> p = re.compile(r'\W+')
  2. >>> p2 = re.compile(r'(\W+)')
  3. >>> p.split('This... is a test.')
  4. ['This', 'is', 'a', 'test', '']
  5. >>> p2.split('This... is a test.')
  6. ['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']

复制代码

模块级别的函数 re.split() 除了将 RE 作为第一个参数外,其他参数是一样的:

  1. >>> re.split('[\W]+', 'Words, words, words.')
  2. ['Words', 'words', 'words', '']
  3. >>> re.split('([\W]+)', 'Words, words, words.')
  4. ['Words', ', ', 'words', ', ', 'words', '.', '']
  5. >>> re.split('[\W]+', 'Words, words, words.', 1)
  6. ['Words', 'words, words.']

复制代码

搜索和替换

另一个常见的任务就是找到所有的匹配部分,并替换成不同的字符串。sub 方法可以帮你实现这个愿望!sub 方法有一个replacement 参数,它可以是一个待替换的字符串,或者一个处理字符串的函数。

.sub(replacementstring[, count=0])

返回一个字符串,这个字符串从最左边开始,所有 RE 匹配的地方都替换成 replacement。如果没有找到任何匹配,那么返回原字符串。

可选参数 count 指定最多替换的次数,必须是一个非负值。默认值是 0,意思是替换所有找到的匹配。

下边是使用 sub() 方法的例子,它会将所有的颜色替换成 color:

  1. >>> p = re.compile( '(blue|white|red)')
  2. >>> p.sub( 'colour', 'blue socks and red shoes')
  3. 'colour socks and colour shoes'
  4. >>> p.sub( 'colour', 'blue socks and red shoes', count=1)
  5. 'colour socks and red shoes'

复制代码

subn() 方法跟 sub() 方法干同样的勾当,但区别是返回值为一个包含有两个元素的元组:一个是替换后的字符串,一个是替换的数目。

  1. >>> p = re.compile( '(blue|white|red)')
  2. >>> p.subn( 'colour', 'blue socks and red shoes')
  3. ('colour socks and colour shoes', 2)
  4. >>> p.subn( 'colour', 'no colours at all')
  5. ('no colours at all', 0)

复制代码

空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉:

  1. >>> p = re.compile('x*')
  2. >>> p.sub('-', 'abxd')
  3. '-a-b-d-'

复制代码

如果 replacement 参数是一个字符串,那么里边的反斜杠都会被处理。比如 \n 将会被转换成一个换行符,\r 转换成回车,等等。未知的转义如 \j 保持原样。逆向引用如 \6,则被 RE 中相应的捕获组匹配的内容所替换。这使你可以在替换后的字符串中插入一部分原字符串。

下边例子中,将匹配被 { 和 } 括起来的单词 section,并将 section 替换成 subsection:

  1. >>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)
  2. >>> p.sub(r'subsection{\1}','section{First} section{second}')
  3. 'subsection{First} subsection{second}'

复制代码

小甲鱼解释:1. 大家还记得吗?这里开启了 re.VERBOSE,空格将被忽略。因为这里一堆符号,用空格隔开看着才不会乱糟糟的......2. 这里 r'subsection{\1}' 使用 \1 引用匹配模式中的 ([^}]*) 匹配的字符串内容。

还可以使用 Python 的扩展语法 (?P<name>...) 指定命名组,引用命名组的语法是 \g<name>。\g<name> 会将名字为name 的组匹配的字符串替换进去。另外,\g<数字> 是通过组的序号进行引用。\g<2> 其实就相当于 \2,但我们更提倡使用 \g<2>,因为这样可以避免歧义。例如,\g<2>0 的含义是引用序号为 2 的组,然后后边匹配一个字符 '0',而你写成\20 就会被认为是引用序号为 20 的组了。

  1. >>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE)
  2. >>> p.sub(r'subsection{\1}','section{First}')
  3. 'subsection{First}'
  4. >>> p.sub(r'subsection{\g<1>}','section{First}')
  5. 'subsection{First}'
  6. >>> p.sub(r'subsection{\g<name>}','section{First}')
  7. 'subsection{First}'

复制代码

有时候你可能不满足简单的字符串替换,你可能需要在替换的过程中动点“手脚”......没关系,一样可以满足你!replacement 参数还可以是一个函数,该函数将会在正则表达式模式每次不重复匹配的时候被调用。在每次调用时,函数会收到一个匹配对象的参数,因此你就可以利用这个对象去计算出新的字符串并返回它。

下边的例子中,替换函数将十进制数替换为十六进制数:

  1. >>> def hexrepl(match):
  2. ...     "Return the hex string for a decimal number"
  3. ...     value = int(match.group())
  4. ...     return hex(value)
  5. ...
  6. >>> p = re.compile(r'\d+')
  7. >>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')
  8. 'Call 0xffd2 for printing, 0xc000 for user code.'

复制代码

当使用模块级的 re.sub() 函数时,正则表达式模式作为第一个参数。该模式可以是一个字符串或一个编译好的对象。如果你需要指定正则表达式标志,那么你必须使用后者;或者使用模式内嵌修正器,例如 sub("(?i)b+", "x", "bbbb BBBB") 返回 'x x'。

Python3 如何优雅地使用正则表达式(详解六)的更多相关文章

  1. JavaScript正则表达式详解(一)正则表达式入门

    JavaScript正则表达式是很多JavaScript开发人员比较头疼的事情,也很多人不愿意学习,只是必要的时候上网查一下就可以啦~本文中详细的把JavaScript正则表达式的用法进行了列表,希望 ...

  2. JavaScript正则表达式详解(二)JavaScript中正则表达式函数详解

    二.JavaScript中正则表达式函数详解(exec, test, match, replace, search, split) 1.使用正则表达式的方法去匹配查找字符串 1.1. exec方法详解 ...

  3. Java 正则表达式详解_正则表达式

    body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

  4. Django url配置 正则表达式详解 分组命名匹配 命名URL 别名 和URL反向解析 命名空间模式

    Django基础二之URL路由系统 本节目录 一 URL配置 二 正则表达式详解 三 分组命名匹配 四 命名URL(别名)和URL反向解析 五 命名空间模式 一 URL配置 Django 1.11版本 ...

  5. 【python3+request】python3+requests接口自动化测试框架实例详解教程

    转自:https://my.oschina.net/u/3041656/blog/820023 [python3+request]python3+requests接口自动化测试框架实例详解教程 前段时 ...

  6. (转)Python3.5——装饰器及应用详解

    原文:https://blog.csdn.net/loveliuzz/article/details/77853346 Python3.5——装饰器及应用详解(下)----https://blog.c ...

  7. (转)linux正则表达式详解

    linux正则表达式详解 http://blog.csdn.net/wuliowen/article/details/64131815 1:什么是正则表达式: 简单的说,正则表达式就是处理字符串的方法 ...

  8. Python3、setuptools、Pip3安装详解

    Python3.setuptools.Pip3安装详解 2017年08月19日 18:58:47 安静的技术控 阅读数:26002    版权声明:本文为博主原创文章,未经博主允许不得转载. http ...

  9. Linux文本处理三剑客之grep及正则表达式详解

    Linux文本处理三剑客之grep及正则表达式详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Linux文本处理三剑客概述 grep: 全称:"Global se ...

  10. Django路由配置之正则表达式详解

    正则表达式详解 urls.py from django.conf.urls import url from . import views urlpatterns = [ url(r'^articles ...

随机推荐

  1. COJN 0575 800601滑雪

    800601滑雪 难度级别:B: 运行时间限制:1000ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述 Michael喜欢滑雪百这并不奇怪, 因为滑雪的确很刺激.可是 ...

  2. Largest Number——LeetCode

    Given a list of non negative integers, arrange them such that they form the largest number. For exam ...

  3. Selenium索引

    Common Selenium各种工具比较 Selenium firefox 版本问题 Selenium IDE Selenium IDE整理 WebDriver Java 版本 Selenium开始 ...

  4. Jenkins用户组管理

    Jenkins用户组管理 转载2015-06-10 21:44:24 标签:jenkinsrolestrategypluginusergroupcitools 一.安装插件 安装RoleStrateg ...

  5. UINavigationController 导航控制器 ,根据文档写的一些东西

    今天讲了导航控制器UINavigationController 和标签栏视图控制器UITabBarController 先来说一说导航视图控制器  UINavigationController 导航控 ...

  6. SKPhysicsJointLimit类

    继承自 NSObject 符合 NSCoding(SKPhysicsJoint)NSObject(NSObject) 框架  /System/Library/Frameworks/SpriteKit. ...

  7. 8000401a错误解决方式(Excel)

    前一阵子做开发须要用到Excel和Word编程,本人用的是Vista系统,开发环境是VS2005和Office2007,測试无不论什么问题,但是到部署的时候出现了一些令人非常头痛的问题,老是会出现比如 ...

  8. CentOS 6.3下rsync服务器的安装与配置[转]

    CentOS 6.3下rsync服务器的安装与配置   一.rsync 简介 Rsync(remote synchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件,也 ...

  9. 如何实现数字lcd显示效果(原创)

    如题,我最先想到的是找一种字体,然后来显示lcd的效果,但是字体又无法满足有空位的时候那个暗灰色的文字的效果,如下所示 就是前三位那些灰色的888,因为你设置数值的时候只能是从0-9的数字,而这灰色的 ...

  10. apache SetEnv 设置

    php的服务器预定义变量 $_SERVER 可以通过apache的mod_env模块来添加我们所需要的内容 来段官网介绍 Description: Modifies the environment w ...