元字符

正则表达式使用一些特定的元字符来检索、匹配和替换符合规则的字符串
元字符：普通字符、标准字符、限定字符（量词）、定位字符（边界字符）

正则表达式引擎

正则表达式是一个用正则符号写出来的公式

程序对正则表达式进行语法分析，建立语法分析树
再根据语法分析树结合正则表达式引擎生成执行程序（状态机），用于字符匹配
正则表达式引擎是一套核心算法，用于建立状态机
小结
正则表达式 => 语法分析树
语法分析树 + 正则表达引擎 => 状态机 => 用于字符匹配

目前实现正则表达式引擎的方式有两种

DFA自动机（Deterministic Finite Automaton，确定有限状态自动机）
NFA自动机（Nondeterministic Finite Automaton，非确定有限状态自动机）

DFA自动机的构造代价远大于NFA自动机，但DFA自动机的执行效率高于NFA自动机

假设一个字符串的长度为n，如果采用DFA自动机作为正则表达式引擎，则匹配的时间复杂度为O(n)
如果采用NFA自动机作为正则表达式引擎，NFA自动机在匹配过程中存在大量的分支和回溯，假设NFA的状态数为s，
则匹配的时间复杂度为O(ns)

NFA自动机的优势是支持更多高级功能，但都是基于子表达式独立进行匹配

因此在编程语言里，使用的正则表达式库都是基于NFA自动机实现的

NFA自动机

匹配过程

NFA自动机会读取正则表达式的每一个字符，拿去和目标字符串匹配
匹配成功则换正则表达式的下一个字符，反之就继续就和目标字符串的下一个字符进行匹配

text="aabcab"
regex="bc"

回溯

用NFA自动机实现的比较复杂的正则表达式，在匹配过程中经常会引起回溯问题
大量的回溯会长时间占用CPU，从而带来系统性能开销

text="abbc"
regex="ab{1,3}c"

读取正则表达式第一个匹配符a和字符串第一个字符a进行比较，a对a，匹配

读取正则表达式第二个匹配符b{1,3}和字符串的第二个字符b进行比较，匹配，但b{1,3}表示1~3个字符，而NFA自动机具有贪婪特性，所以不会读取正则表达式的下一个匹配符c

使用b{1,3}和字符串的第四个字符c进行比较，发现不匹配，此时就会发生回溯，已经读取的字符串第四个字符c将被吐出去，指针回到第三个字符b的位置

发生回溯后，读取正则表达式的下一个匹配符c，和字符串的第四个字符c进行比较，结果匹配

避免回溯

避免回溯的方法：使用懒惰模式和独占模式

贪婪模式（Greedy）

在数量匹配中，如果单独使用+、？、*、{min,max}等量词，正则表达式会匹配尽可能多的内容
text="abbc" , regex="ab{1,3}c"，发生了一次匹配失败，就会引起一次回溯
text="abbbc" , regex="ab{1,3}c"，匹配成功

懒惰模式（Reluctant）

在懒惰模式下，正则表达式会尽可能少地重复匹配字符，如果匹配成功，会继续匹配剩余的字符串
使用?开启懒惰模式，text="abc" , regex="ab{1,3}?c"

匹配结果是"abc"，在该模式下NFA自动机首先选择最小的匹配范围，即匹配1个b字符，避免了回溯问题

独占模式（Possessive）

和贪婪模式一样，独占模式一样会最大限度地匹配更多内容，但在匹配失败时会结束匹配，不会发生回溯问题
使用+开启懒惰模式，text="abbc" , regex="ab{1,3}+bc"

结果是不匹配，结束匹配，不会发生回溯问题

代码

match("ab{1,3}c", "abbc"); // abbc，贪婪模式，产生回溯
match("ab{1,3}c", "abbbc"); // abbbc，贪婪模式，不产生回溯
match("ab{1,3}?", "abbbb"); // ab，懒惰模式，不产生回溯
match("ab{1,3}+bc", "abbc"); // null，独占模式，不产生回溯

正则表达式的优化

少用贪婪模式，多用独占模式（避免回溯）
减少分支选择，分支选择类型"(X|Y|Z)"的正则表达式会降低性能，尽量减少使用，如果一定要使用

考虑选择的顺序，将比较常用的选择放在前面，使它们可以较快地被匹配
提取共用模式，(abcd|abef) => ab(cd|ef)
如果是简单的分支选择类型，可以用三次index代替(X|Y|Z)

减少捕获嵌套

捕获组：把正则表达式中，子表达式匹配的内容保存到以数字编号或显式命名的数组中，一般一个()就是一个捕获组
每个捕获组都有一个编号，编号0代表整个匹配到的内容
非捕获组：参与匹配却不进行分组编号的捕获组，其表达式一般由(?:exp)组成
减少不需要获取的分组，可以提高正则表达式的性能

捕获组

String text = "<input high=\"20\" weight=\"70\">test</input>";
String reg = "(<input.*?>)(.*?)(</input>)";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(text);
while (m.find()) {
 System.out.println(m.group(0));// 整个匹配到的内容
 System.out.println(m.group(1));//(<input.*?>)
 System.out.println(m.group(2));//(.*?)
 System.out.println(m.group(3));//(</input>)
 // 输出：
 // <input high="20" weight="70">test</input>
 // <input high="20" weight="70">
 // test
 // </input>
}

非捕获组

String text = "<input high=\"20\" weight=\"70\">test</input>";
String reg = "(?:<input.*?>)(.*?)(?:</input>)";
Pattern p = Pattern.compile(reg);
Matcher m = p.matcher(text);
while (m.find()) {
 System.out.println(m.group(0));// 整个匹配到的内容
 System.out.println(m.group(1));//(.*?)
 // 输出
 // <input high="20" weight="70">test</input>
 // test
}

小结

在做好性能测试的前提下，可以使用正则表达式，否则能不用就不用，避免造成更多的性能问题.

文章的话到这里就结束了，希望大家在性能测试中，对正则表达式有自己的认识。今日的性能篇到此结束！

需要更多源码视频，面试题，Java技术书籍等学习资料的

可以关注我哦！加群772300343即可获取！

我是小架，我们下篇文章见！

Java正则表达式详细解析的更多相关文章

java正则表达式详细总结
Java 提供了功能强大的正则表达式API,在java.util.regex 包下.本教程介绍如何使用正则表达式API. 正则表达式一个正则表达式是一个用于文本搜索的文本模式.换句话说,在文本中搜索 ...
Java 正则表达式详细使用
Java 正则表达式 java.util.regex.Pattern java.util.regex.Matcher 1.Matchmatch 是从字符串最头部开始匹配,一直到结束,需要匹配整个串 S ...
Java 正则表达式详细实例解析
案例1:判断字符串是否是abc package Regex; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * ...
java容器详细解析
前言:在java开发中我们肯定会大量的使用集合,在这里我将总结常见的集合类,每个集合类的优点和缺点,以便我们能更好的使用集合.下面我用一幅图来表示其中淡绿色的表示接口,红色的表示我们经常使用的类. ...
WeakHashMap和Java引用类型详细解析
WeakHashMap是种弱引用的HashMap,这是说,WeakHashMap里的key值如果没有外部强引用,在垃圾回收之后,WeakHashMap的对应内容也会被移除掉. 1.1 Java的引用类 ...
java容器详细解析（转）
:在java开发中我们肯定会大量的使用集合,在这里我将总结常见的集合类,每个集合类的优点和缺点,以便我们能更好的使用集合.下面我用一幅图来表示其中淡绿色的表示接口,红色的表示我们经常使用的类. 1: ...
JAVA 正则表达式（超详细）
(PS:这篇文章为转载,我不喜欢转载的但我觉得这篇文章实在是超赞了,就转了过来,这篇可以说是学习JAVA正则表达的必读篇.作者是个正真有功力的人,阅读愉快) 在Sun的Java JDK 1.40版本中 ...
转载：JAVA 正则表达式（超详细）
在Sun的JavaJDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用Java.util.regex包. 可粗略估计一下,除了偶尔用Linux的外,其他Linu x ...
java类生命周期详细解析
(一)详解java类的生命周期引言最近有位细心的朋友在阅读笔者的文章时,对java类的生命周期问题有一些疑惑,笔者打开百度搜了一下相关的问题,看到网上的资料很少有把这个问题讲明白的,主要是因为目前 ...

随机推荐

windows下cocos2d-x环境搭建
该教程使用的cocos2dx的版本为3.14,3之后的大概都差不多 Python环境搭建: cocos2dx在windows上新建工程需要用到python脚本,安装python-2.7.x,可以上py ...
[Spring cloud 一步步实现广告系统] 4. 通用代码模块设计
一个大的系统,在代码的复用肯定是必不可少的,它能解决: 统一的响应处理(可以对外提供统一的响应对象包装) 统一的异常处理(可以将业务异常统一收集处理) 通用代码定义.配置定义(通用的配置信息放在统一的 ...
（四十六）c#Winform自定义控件-水波进度条-HZHControls
官网 http://www.hzhcontrols.com 前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kww ...
C# show Environment property info name and value retrieve, Maximize the Console Window based on window resolution
using System.Reflection; static void ShowEnvironmentInfoDemo() { Type type = typeof(Environment); Pr ...
XMind 是一个全功能的思维导图和头脑风暴软件，为激发灵感和创意而生
XMind 是一个全功能的思维导图和头脑风暴软件,为激发灵感和创意而生 https://www.xmind.cn/
MySql 筛选条件、聚合分组、连接查询
筛选条件比较运算符等于: = ( 注意!不是 == ) 不等于: != 或 <> 大于: > 大于等于: >= 小于: < 小于等于: <= IS NULL I ...
Shell—引入外部脚本文件
在Shell中要如何调用别的shell脚本,或别的脚本中的变量,函数呢? 方式1:. filename 方式2:source filename 需要注意: 两个点之间 ...
【转载】Spring学习(1)——快速入门--2019.05.19
原文地址:https://www.cnblogs.com/wmyskxz/p/8820371.html 认识 Spring 框架 Spring 框架是 Java 应用最广的框架,它的成功来源于理念 ...
最小化MarkdownPad 2安装体积（win10）
一.原因 MarkdownPad2在Win10当中可能无法正常运行,右侧预览界面会出现错误"This view has crashed!"查阅官网FAQ得知大多数情况下安装Awes ...
Java之Random类
什么是Random类此类的实例用于生成伪随机数,使用此类中的方法能够得到一个随机数. Random使用步骤查看类 java.util.Random :该类需要 import导入使后使用. 查看构造 ...

Java正则表达式详细解析

元字符