Python3 如何优雅地使用正则表达式(详解六)
修改字符串
我们已经介绍完如何对字符进行搜索,接下来我们讲讲正则表达式如何修改字符串。
正则表达式使用以下方法修改字符串:
| 方法 | 用途 |
| split() | 在正则表达式匹配的地方进行分割,并返回一个列表 |
| sub() | 找到所有匹配的子字符串,并替换为新的内容 |
| subn() | 跟 sub() 干一样的勾当,但返回新的字符串以及替换的数目 |
分割字符串
正则表达式的 split() 方法将字符串在匹配的地方进行分割,并将分割后的结果作为列表返回。它的做法其实很像字符串的 split() 方法,但这个可以使用更加广泛的分隔符。你猜的没错,它同时提供了一个模块级别的函数:re.split()
.split(string[, maxsplit=0])
通过正则表达式匹配来分割字符串。如果在 RE 中,你使用了捕获组,那么它们的内容会作为一个列表返回。你可以通过传入一个 maxsplit 参数来设置分割的数量。如果 maxsplit 的值是非 0,表示至多有 maxsplit 个分割会被处理,剩下的内容作为列表的最后一个元素返回。
下边例子中,分隔符是任何非字母数字字符:
- >>> p = re.compile(r'\W+')
- >>> p.split('This is a test, short and sweet, of split().')
- ['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
- >>> p.split('This is a test, short and sweet, of split().', 3)
- ['This', 'is', 'a', 'test, short and sweet, of split().']
复制代码
有时候你可能不仅对分隔符之间的内容感兴趣,你可能对分隔符本身(就是正则表达式匹配的内容)也同样感兴趣。如果使用了捕获组,那么作为分隔符的值也会被返回:
- >>> p = re.compile(r'\W+')
- >>> p2 = re.compile(r'(\W+)')
- >>> p.split('This... is a test.')
- ['This', 'is', 'a', 'test', '']
- >>> p2.split('This... is a test.')
- ['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']
复制代码
模块级别的函数 re.split() 除了将 RE 作为第一个参数外,其他参数是一样的:
- >>> re.split('[\W]+', 'Words, words, words.')
- ['Words', 'words', 'words', '']
- >>> re.split('([\W]+)', 'Words, words, words.')
- ['Words', ', ', 'words', ', ', 'words', '.', '']
- >>> re.split('[\W]+', 'Words, words, words.', 1)
- ['Words', 'words, words.']
复制代码
搜索和替换
另一个常见的任务就是找到所有的匹配部分,并替换成不同的字符串。sub 方法可以帮你实现这个愿望!sub 方法有一个replacement 参数,它可以是一个待替换的字符串,或者一个处理字符串的函数。
.sub(replacement, string[, count=0])
返回一个字符串,这个字符串从最左边开始,所有 RE 匹配的地方都替换成 replacement。如果没有找到任何匹配,那么返回原字符串。
可选参数 count 指定最多替换的次数,必须是一个非负值。默认值是 0,意思是替换所有找到的匹配。
下边是使用 sub() 方法的例子,它会将所有的颜色替换成 color:
- >>> p = re.compile( '(blue|white|red)')
- >>> p.sub( 'colour', 'blue socks and red shoes')
- 'colour socks and colour shoes'
- >>> p.sub( 'colour', 'blue socks and red shoes', count=1)
- 'colour socks and red shoes'
复制代码
subn() 方法跟 sub() 方法干同样的勾当,但区别是返回值为一个包含有两个元素的元组:一个是替换后的字符串,一个是替换的数目。
- >>> p = re.compile( '(blue|white|red)')
- >>> p.subn( 'colour', 'blue socks and red shoes')
- ('colour socks and colour shoes', 2)
- >>> p.subn( 'colour', 'no colours at all')
- ('no colours at all', 0)
复制代码
空匹配只有在它们没有紧挨着前一个匹配时才会被替换掉:
- >>> p = re.compile('x*')
- >>> p.sub('-', 'abxd')
- '-a-b-d-'
复制代码
如果 replacement 参数是一个字符串,那么里边的反斜杠都会被处理。比如 \n 将会被转换成一个换行符,\r 转换成回车,等等。未知的转义如 \j 保持原样。逆向引用如 \6,则被 RE 中相应的捕获组匹配的内容所替换。这使你可以在替换后的字符串中插入一部分原字符串。
下边例子中,将匹配被 { 和 } 括起来的单词 section,并将 section 替换成 subsection:
- >>> p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)
- >>> p.sub(r'subsection{\1}','section{First} section{second}')
- 'subsection{First} subsection{second}'
复制代码
小甲鱼解释:1. 大家还记得吗?这里开启了 re.VERBOSE,空格将被忽略。因为这里一堆符号,用空格隔开看着才不会乱糟糟的......2. 这里 r'subsection{\1}' 使用 \1 引用匹配模式中的 ([^}]*) 匹配的字符串内容。
还可以使用 Python 的扩展语法 (?P<name>...) 指定命名组,引用命名组的语法是 \g<name>。\g<name> 会将名字为name 的组匹配的字符串替换进去。另外,\g<数字> 是通过组的序号进行引用。\g<2> 其实就相当于 \2,但我们更提倡使用 \g<2>,因为这样可以避免歧义。例如,\g<2>0 的含义是引用序号为 2 的组,然后后边匹配一个字符 '0',而你写成\20 就会被认为是引用序号为 20 的组了。
- >>> p = re.compile('section{ (?P<name> [^}]* ) }', re.VERBOSE)
- >>> p.sub(r'subsection{\1}','section{First}')
- 'subsection{First}'
- >>> p.sub(r'subsection{\g<1>}','section{First}')
- 'subsection{First}'
- >>> p.sub(r'subsection{\g<name>}','section{First}')
- 'subsection{First}'
复制代码
有时候你可能不满足简单的字符串替换,你可能需要在替换的过程中动点“手脚”......没关系,一样可以满足你!replacement 参数还可以是一个函数,该函数将会在正则表达式模式每次不重复匹配的时候被调用。在每次调用时,函数会收到一个匹配对象的参数,因此你就可以利用这个对象去计算出新的字符串并返回它。
下边的例子中,替换函数将十进制数替换为十六进制数:
- >>> def hexrepl(match):
- ... "Return the hex string for a decimal number"
- ... value = int(match.group())
- ... return hex(value)
- ...
- >>> p = re.compile(r'\d+')
- >>> p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')
- 'Call 0xffd2 for printing, 0xc000 for user code.'
复制代码
当使用模块级的 re.sub() 函数时,正则表达式模式作为第一个参数。该模式可以是一个字符串或一个编译好的对象。如果你需要指定正则表达式标志,那么你必须使用后者;或者使用模式内嵌修正器,例如 sub("(?i)b+", "x", "bbbb BBBB") 返回 'x x'。
Python3 如何优雅地使用正则表达式(详解六)的更多相关文章
- JavaScript正则表达式详解(一)正则表达式入门
JavaScript正则表达式是很多JavaScript开发人员比较头疼的事情,也很多人不愿意学习,只是必要的时候上网查一下就可以啦~本文中详细的把JavaScript正则表达式的用法进行了列表,希望 ...
- JavaScript正则表达式详解(二)JavaScript中正则表达式函数详解
二.JavaScript中正则表达式函数详解(exec, test, match, replace, search, split) 1.使用正则表达式的方法去匹配查找字符串 1.1. exec方法详解 ...
- Java 正则表达式详解_正则表达式
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
- Django url配置 正则表达式详解 分组命名匹配 命名URL 别名 和URL反向解析 命名空间模式
Django基础二之URL路由系统 本节目录 一 URL配置 二 正则表达式详解 三 分组命名匹配 四 命名URL(别名)和URL反向解析 五 命名空间模式 一 URL配置 Django 1.11版本 ...
- 【python3+request】python3+requests接口自动化测试框架实例详解教程
转自:https://my.oschina.net/u/3041656/blog/820023 [python3+request]python3+requests接口自动化测试框架实例详解教程 前段时 ...
- (转)Python3.5——装饰器及应用详解
原文:https://blog.csdn.net/loveliuzz/article/details/77853346 Python3.5——装饰器及应用详解(下)----https://blog.c ...
- (转)linux正则表达式详解
linux正则表达式详解 http://blog.csdn.net/wuliowen/article/details/64131815 1:什么是正则表达式: 简单的说,正则表达式就是处理字符串的方法 ...
- Python3、setuptools、Pip3安装详解
Python3.setuptools.Pip3安装详解 2017年08月19日 18:58:47 安静的技术控 阅读数:26002 版权声明:本文为博主原创文章,未经博主允许不得转载. http ...
- Linux文本处理三剑客之grep及正则表达式详解
Linux文本处理三剑客之grep及正则表达式详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Linux文本处理三剑客概述 grep: 全称:"Global se ...
- Django路由配置之正则表达式详解
正则表达式详解 urls.py from django.conf.urls import url from . import views urlpatterns = [ url(r'^articles ...
随机推荐
- -_-#【Mac】快捷操作
快捷键 command + 拖拽 = 剪切option + 拖拽 = 复制command + option + 拖拽 = 快捷方式 command + ] 前进command + [ 后退 comma ...
- 高质量JavaScript代码书写基本要点学习
高质量JavaScript代码书写基本要点学习 可维护的代码意味着: •可读的 •一致的 •可预测的 •看上去就像是同一个人写的 •已记录 最小全局变量(Minimizing Globals) ...
- List的数据结构
从这张图片说起:TreeList的实现结构: 首先是构建函数 TreeList(Collection coll),调用增加函数: public void add(int index, Object o ...
- adb Monkey用法
以这条Monkey指令为例: #monkey -s --throttle -p com.android.cameraswitch -- 这条monkey指令是测试:在camera模块中产生1万次伪随机 ...
- Facade外观模式 笔记
Facede模式: 把内部系统复杂隐藏,提供一个方便统一的接口. 微波炉在界面简单操作下就可以烹饪出美味佳肴, 微波炉内部运作原理,各个组件互相交互运作,使用者并不需要关心. 而且关心的话可能没有多 ...
- C#三层开发做学生管理系统
1.定义各个层 2.添加各个层之间的引用 DAL 层调用Model BLL层调用DAL和Model UI层调用BLL和Model层 Model层供各个层调用 3.根据数据库建立实体类,每张表对应一个实 ...
- How to Create Custom Filters in AngularJs
http://www.codeproject.com/Tips/829025/How-to-Create-Custom-Filters-in-AngularJs Introduction Filter ...
- Citrix 服务器虚拟化之十三 Xenserver虚拟机内存优化与性能监控
Citrix 服务器虚拟化之十三 Xenserver虚拟机内存优化与性能监控 XenServer的DMC通过自动调节运行的虚拟机的内存,每个VM分配给指定的最小和最大内存值之间,以保证性能并允许每 ...
- intellij安装Scala及Python插件
1.下载intellij及Scala和Python插件 intellij的下载地址:https://www.jetbrains.com/idea/download/#section=windows S ...
- C# 面向对象 , 继承
继承 class A { Console.WriteLine("hello world"); } class B:A { } 以上书写,表示B 是A 的子类, B 同时继承A 中 ...