iOS 中的正则表达式符号
最近重新看了一遍 iOS 的正则文档,简单翻译下文档中涉及到的符号
1.正则表达式元字符
| 符号 | 说明 |
|---|---|
| \a | 响铃, \u0007 |
| \A | 匹配输入的开始,只匹配第一行,也就是忽略多行选项 |
| \b | 不在[]包含时,匹配单词的边界,也就是\w和\W的中间 |
| \b | 在[]包含的集合内,匹配 BACKSPACE, \u0008 |
| \B | 当前位置不是单词的边界 |
| \cX | Ctrl+X |
| \d | 所有十进制数字 Nd |
| \D | 所有非十进制数字 |
| \e | ESCAPE, \u001B. |
| \E | 结束\Q...\E引用段 |
| \f | 匹配换页符 FORM FEED, \u000C |
| \G | 当前位置是上个匹配的结束处,第一次匹配的是单词的开始 |
| \n | 换行符 LINE FEED, \u000A. |
| \N{UNICODE CHARACTER NAME} | 匹配Unicode 命名对应的字符。见参考3 |
| \p{UNICODE PROPERTY NAME} | 匹配对应命名字符集里的字符 |
| \P{UNICODE PROPERTY NAME} | 匹配不在命名字符集里面的字符 |
| \Q | 引用字符直到\E结束,这个引用区间的字符都不需要转义符 |
| \r | 回车 CARRIAGE RETURN, \u000D |
| \s | 空白字符,[\t\n\f\r\p{Z}] |
| \S | 非空白字符 |
| \t | 水平制表符 |
| \uhhhh | 匹配Unicode代码中十六进制代码为hhhh的字符 |
| \Uhhhhhhhh | 匹配Unicode代码中十六进制代码为hhhhhhhh的字符,必须是8位,虽然最大的Unicode 值是\U0010ffff |
| \w | 匹配一个单词字符 [\p{Ll}\p{Lu}\p{Lt}\p{Lo}\p{Nd}] |
| \W | 匹配所有的非单词字符 |
| \x{hhhh} | 匹配十六进制hhhh表示的字符,支持1-6位 |
| \xhh | 匹配2位十六进制hh表示的字符 |
| \X | 匹配一个字符群集(Grapheme Cluster) |
| \Z | 匹配输入的结束,如果最后一行后面还有换行符,也匹配 |
| \z | 匹配输入的结束 |
| \n | 回溯引用,匹配第n个匹配,n ≥ 1 并且 ≤ 总匹配数量 |
| \0ooo | 八进制代码为ooo的字符,ooo可以是1到3位。0377是最大的被允许的字符。注意开始的0是必须的,区分8进制和回溯引用 |
| [pattern] | 匹配pattern中包含的字符 |
| . | 匹配任意字符 |
| ^ | 匹配一个行的开始 |
| $ | 匹配一个行的结尾 |
| | 转义符,需要转义的符号有 * ? + [ ( ) { } ^ $ | . / |
2.操作符
| 符号 | 说明 |
|---|---|
| | | A |
| * | 0或多次,尽可能多匹配 |
| + | 1或多次,尽可能多匹配 |
| ? | 0或1次,1次优先 |
| {n} | 匹配n次 |
| {n,} | 匹配至少n次,尽可能多匹配 |
| {n,m} | 匹配n-m次,不多于m的情况下尽可能多匹配 |
| *? | 0或多次,尽可能少匹配 |
| +? | 1或多次,尽可能少匹配 |
| ?? | 0或1次,优先0次 |
| {n}? | 匹配n次 |
| {n,}? | 匹配至少n次,尽可能少匹配 |
| {n,m}? | 匹配n-m次,不少于n的情况下尽量少匹配 |
| *+ | 0或多次,尽可能多匹配 |
| ++ | 1或多次,尽可能多匹配 |
| ?+ | 0或1次,尽可能多匹配 |
| {n}+ | 匹配n次 |
| {n,}+ | 匹配至少n次,尽可能多匹配 |
| {n,m}+ | n到m次,尽可能多匹配 |
| (...) | 匹配区域,子表达式 |
| (?:...) | 不选去的子表达式,用来提高效率 |
| (?>...) | 固化分组,匹配后就成为一个整体,不留下回溯点防止回溯 |
| (?# ... ) | 注释 |
| (?= ... ) | 零宽断言,匹配表达式前面的位置 |
| (?! ... ) | 零宽断言,匹配后面不是表达式的位置 |
| (?<= ... ) | 零宽断言,匹配表达式后面的位置,表达式不可以是无边界的(不可以包含 * 和 + 操作符) |
| (?<! ... ) | 零宽断言,匹配后面不是表达式的位置,表达式不可以是无边界的(不可以包含 * 和 + 操作符) |
| (?ismwx-ismwx: ... ) | 标记设置,设置表达式运算时使用的标记是否有效,或者无效(-) |
| (?ismwx-ismwx) | 标记设置,改变之后位置的正则运算标记 |
3. 替换模板匹配格式
|$n|匹配第n个表达式,n必须 >= 0 并且小于表达式数量|
||转义符,基本上只有'$' and ''需要|
4. 标记选项
| 符号 | 说明 |
|---|---|
| i | 不区分大小写 |
| x | 允许空格和 #注释 出现在表达式中,都会被忽略 |
| s | "."可以匹配换行符,默认 回车、换行不被匹配 |
| m | 多行匹配,让"^" 和 "$"在每一行都能匹配,而不仅仅只是整个字符串 |
| w | 控制\b表示Unicode UAX 29 http://www.unicode.org/reports/tr29/ 规定的边界,还是简单的 word 或 non-word 区别 |
一些说明
1.什么是 ICU
全称 International Components for Unicode,是一套成熟的 UNICODE 相关开发包。具体见 http://site.icu-project.org/
2.什么是 UNICODE
UNICODE 是一种字符编码方案。具体见 http://www.unicode.org/
每个编码对应一个字符,已经分配的编码都有个name,一组编码形成一个分组
Plane 分为17个组,每组65536个编码
Category 一组类似的字符的集合,有Value代表这个集合
Name 每一个分配了字符的码,都有一个别名
可以见参考5
3.一些 UNICODE 字符组
| 类名 | 说明 |
|---|---|
| \p{Z} | 任何种类的空白或不可见的分隔符 |
| \p{Zs} | 一个不可见但是却会占用空间的空白字符 |
| \p{Zl} | 行分隔符U+2028 |
| \p{Zp} | 段分隔符U+2029 |
4. Grapheme Cluster
Unicode grapheme clusters(字符集群)
一个unicode scalar定义的字符和多个unicode scalar定义是一样的,我们称这多个unicode scalar 叫Unicode grapheme clusters
例如
é 可由\u{00e9}表示也可由\u{0065}\u{0301}共同表示,\u{0065}\u{0301}就是grapheme cluster
5.\G的用法
\G\w
test string
可以匹配到 t e s t
6.不连续性
注意不是所有的21位 Unicode 标量都代表一个字符,因为有一些标量是留作未来分配的。已经代表一个典型字符的标量都有自己的名字
参考
1.http://leoliuyt.github.io/2016/10/07/Swift%E4%B8%AD%E7%9A%84Unicode%E3%80%81String/
2.http://www.regular-expressions.info/continue.html
3.http://unicode.org/charts/charindex.html
4.http://www.blogjava.net/zhugf000/archive/2005/12/12/23414.html#ref_unicode_category
5.https://en.wikipedia.org/wiki/Unicode_character_property
iOS 中的正则表达式符号的更多相关文章
- iOS中运用正则表达式
iOS中运用正则表达式来匹配短信验证码,电话号码,邮箱等是比较常见的. 在iOS中运用正则表达式主要有三种方式: -:通过谓词下面是实例代码: - (BOOL)regularExpresionWith ...
- iOS中使用正则表达式去掉HTML中的标签元素获得纯文本的方法
content是根据网址获得的网页源码字符串 - (NSString *)changeToString:(NSString *)content { NSRegularExpression *regul ...
- 正则表达式在iOS中的运用
1.什么是正则表达式 正则表达式,又称正规表示法,是对字符串操作的一种逻辑公式.正则表达式可以检测给定的字符串是否符合我们定义的逻辑,也可以从字符串中获取我们想要的特定部分.它可以迅速地用极简单的方式 ...
- iOS中使用正则
一.什么是正则表达式 正则表达式,又称正规表示法,是对字符串操作的一种逻辑公式.正则表达式可以检测给定的字符串是否符合我们定义的逻辑,也可以从字符串中获取我们想要的特定部分.它可以迅速地用极简单的方式 ...
- iOS 和Android中的正则表达式简单使用
ios 中需要使用NSRegularExpression类,NSTextCheckingResult类. 下面给出最基本的实现代码 NSRegularExpression *regex = [NSRe ...
- iOS开发-正则表达式3种形式
转至:http://www.cnblogs.com/GarveyCalvin/p/4250145.html iOS开发-正则表达式的使用方法 前 言:在表单验证中,我们经常会使用到正则,因为我们需要用 ...
- ACM中的正则表达式
layout: post title: ACM中的正则表达式 author: "luowentaoaa" catalog: true mathjax: true tags: - 正 ...
- 9.JAVA中的正则表达式
一.JAVA中的正则表达式 1.概念:以某种特定的方式描述字符串 1.Java中正则表达式的规则 ? #{0,1}-?有一个-或者没有 \\ #表示一个" ...
- iOS中获取各种文件的目录路径的方法
我们的app在手机中存放的路径是:/var/mobile/Applications/4434-4453A-B453-4ADF535345ADAF344 后面的目录4434-4453A-B453-4AD ...
随机推荐
- vim使用常看
原网址http://www.runoob.com/linux/linux-vim.html 补充参考https://blog.csdn.net/w178191520/article/details/8 ...
- Spring 的下载、安装和使用
一.下载 Spring 下载地址:http://repo.spring.io/libs-release-local/org/springframework/spring/4.0.6.RELEASE/ ...
- IO流输入输出流,字符字节流
一.流 1.流的概念 流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象.即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作. ...
- BZOJ1116:[POI2008]CLO(并查集)
Description Byteotia城市有n个 towns m条双向roads. 每条 road 连接 两个不同的 towns ,没有重复的road. 你要把其中一些road变成单向边使得:每个t ...
- 「Newcoder练习赛40D」小A与最大子段和
题目 挺好的一道题 我们考虑把\(i\)作为选取的最大子段的结束位置,我们如何往前计算贡献呢 考虑一下这个乘上其在队列中的位置可以表示为这个数被算了多少次,而我们往前扩展一位当前已经被扩展的就会被计算 ...
- 怎么解决深入学习PHP的瓶颈?
PHP给学习者的感觉是:初学的时候很容易,但是学了2-3年,就深刻感觉遇到了瓶颈,很难深入,放弃又可惜.所谓“鸡肋,食之无味弃之可惜”的感觉很是贴切. 经常会有这种感觉:不学,看似也不后退:学了,好像 ...
- PAT——1002. 写出这个数
读入一个自然数n,计算其各位数字之和,用汉语拼音写出和的每一位数字. 输入格式:每个测试输入包含1个测试用例,即给出自然数n的值.这里保证n小于10100. 输出格式:在一行内输出n的各位数字之和的每 ...
- 【题解】洛谷P1896 [SCOI2005] 互不侵犯(状压DP)
洛谷P1896:https://www.luogu.org/problemnew/show/P1896 前言 这是一道状压DP的经典题 原来已经做过了 但是快要NOIP 复习一波 关于一些位运算的知识 ...
- 阿里前端测试题--关于ES6中Promise函数的理解与应用
今天做了阿里前端的笔试题目,原题目是这样的 //实现mergePromise函数,把传进去的数组顺序先后执行,//并且把返回的数据先后放到数组data中 const timeout = ms => ...
- 架构风格:你真的懂REST吗?
本文探讨如下几个问题: 什么是REST REST包含哪些约束 什么是RESTful 纯RESTful API的难点在哪里 如果你去搜索「什么是REST」的话,大部分情况下,你看到的基本都是RESTfu ...