在一篇由字符构成的长文中查找另一个短字符串出现的位置,这可以算是编程领域最最常见的问题(比如按下 Ctrl + F 就可以打开你浏览器的查找功能)。这个问题叫做字符串的模式匹配,我们把被查找的关键词叫做模式串,被查找的全文叫做主串。注意:本文的下标均从 0 开始。

当我们用最容易想到的朴素的暴力解法时,就像逐字逐句地翻动书页:将模式串的每个字符与主串逐一比对,一旦发现不匹配,就把模式串右移一位,重新从头比较

面对随机数据,算法可以高效工作。但这种老实人的做法,在遇到某些“狡猾”的数据时会彻底崩溃。比如:

  • 主串AAAAA……AAB(连续100万个A后跟一个B)
  • 模式串AAAAAAAC

暴力解法会怎么做?它会在主串的每一个位置,逐个对比前7个字符,直到发现第7位的AC不匹配,再右移一位重复这个过程,最终一共进行了八百万次匹配,最终还是没有找到。

问题的核心:每次匹配失败时,必须全部重来。在主串的每一位匹配时,都可能遍历到模式串的最后一位。这种“一朝失足,从头再来”的策略,在极端情况下让时间复杂度飙升至 \(O(mn)\)。

前缀函数——模式串的"自省密码"

既然暴力解法卡在「匹配失败就全体重来」的死胡同里,我们需要让模式串学会自我反省——这就是前缀函数(Prefix Function)的使命。它像一本预先生成的密码手册,记录了模式串中每个位置的最长重复头尾特征

定义与直觉

对于一个长度为 \(n\) 的模式串 \(s\),前缀函数 \(π[i]\) 表示子串 \(s[0..i]\) 中,最长的相同真前缀与真后缀的长度

(真前缀:不包含整个字符串的前缀;真后缀同理)

举个栗子:模式串 "ababcabab"

索引:0 1 2 3 4 5 6 7 8
字符:a b a b c a b a b
π[i]:0 0 1 2 0 1 2 3 4
  • i=0 时子串是 "a",真前缀不应该包括自己(否则每个点的 π 都包含自身全部了) → π[1] 总是 0
  • i=3 时子串是 "abab",最长真前后缀是 "ab" → π[3]=2
  • i=8 时子串是整个字符串,真前后缀 "abab" → π[8]=4

为什么能加速?

当我们在主串中匹配到某个位置失败时,前缀函数告诉我们可以保留已匹配部分的最大共同头尾,直接将模式串滑动到该位置继续匹配,跳过中间的重复检查。

动态规划构造前缀表:模式串的自我匹配

我们怎么求解这个有大用的前缀函数呢?构造前缀函数的过程,本质上是在模式串内部用自己匹配自己。这听起来有点玄乎,但核心思想非常巧妙——利用已计算的前缀值指导后续计算,踩着之前的脚印过河。

// string s = "……"
vector<int> next; // π for (int i = 1; i < s.size(); ++i) { // next[0]总是 0,从next[1]开始计算
int j = next[i-1]; // 初始化为前一位的前缀值
while (j > 0 && s[j] != s[i]) // 不匹配时回退
j = next[j-1]; // 关键跳跃!
next[i] = (s[j] == s[i]) ? j + 1 : 0;
}

假设模式串为 "abababc",我们手动模拟计算过程:

  1. 初始化next[0] = 0(单个字符无真前后缀)
  2. i=1(字符 b):
    • j = next[0] = 0
    • s[0] = 'a' ≠ 'b'j 保持 0
    • next[1] = 0
  3. i=2(字符 a):
    • j = next[1] = 0
    • s[0] = 'a' == 'a'j += 1
    • next[2] = 1
  4. i=3(字符 b):
    • j = next[2] = 1 → 检查 s[1] = 'b' == 'b'
    • 匹配成功 → next[3] = 2
  5. i=4(字符 a):
    • j = next[3] = 2 → 检查 s[2] = 'a' == 'a'
    • 匹配成功 → next[4] = 3
  6. i=5(字符 b):
    • j = next[4] = 3 → 检查 s[3] = 'b' == 'b'
    • 匹配成功 → next[5] = 4
  7. i=6(字符 c):
    • j = next[5] = 4s[4] = 'a' ≠ 'c'
    • 回退j = next[3] = 2s[2] = 'a' ≠ 'c'
    • 继续回退:j = next[1] = 0s[0] = 'a' ≠ 'c'
    • 最终 next[6] = 0

每一次计算next[i]先尝试用next[i-1],若下一个字符不匹配,无需重头开始,而是可以尝试用next[next[i-1]]来匹配再次尝试,直到其为 0 也不匹配的话,就只能归零了。

j = next[j-1]:当 s[j] ≠ s[i] 时,跳跃到当前最长前缀的末尾继续尝试匹配。这相当于利用之前计算的次长相同前后缀,避免从头开始暴力枚举。

KMP 模式匹配

有了模式串的前缀函数这张“地图”,KMP 算法就能像猎犬追踪气味一样高效搜索。KMP 算法首次出现在1977年,全称为 Knuth-Morris-Pratt 算法,是一种用于在字符串中进行模式匹配的高效算法。它由 Donald Knuth、Vaughan Pratt 和 James H. Morris 三位计算机科学家共同提出,因此命名为 KMP 算法。

它的核心逻辑是让主串指针 i 永不回头,而模式串指针 j 在失败时智能跳跃

和前缀函数的求解类似,当来到下标 i 时,我们已知主串下标 i-1 的后缀和模式串的前 j 个字符匹配,接下来应该比较s[j] = text[i],相等则再推进一步,不等则可以退回到和 s[next[j-1]] 比较,直到有一个匹配成功(或者最终仍匹配失败)。

vector<int> match(const string &text) {
vector<int> result;
for (int i = 0, j = 0; i < text.size(); ++i) {
while (j > 0 && s[j] != text[i])
j = next[j - 1];
// 当前字符匹配时,j向前推进
if (s[j] == text[i]) ++j;
if (j == s.size()) { // 完整匹配
result.push_back(i - j + 1);
j = next[j - 1];
}
}
return result;
}

假设:

  • 主串 text = "ABABABABC"
  • 模式串 s = "ABABAC"(前缀函数 next = [0,0,1,2,3,0]
  1. 初始状态i=0(指向主串'A'),j=0(指向模式串'A')

    • 匹配成功 → j=1
    • 未完全匹配 → 继续
  2. i=1(主串'B'),j=1(模式串'B')

    • 匹配成功 → j=2
  3. i=2(主串'A'),j=2(模式串'A')

    • 匹配成功 → j=3
  4. i=3(主串'B'),j=3(模式串'B')

    • 匹配成功 → j=4
  5. i=4(主串'A'),j=4(模式串'A')

    • 匹配成功 → j=5
  6. i=5(主串'B'),j=5(模式串'C')

    • 失配 → 执行 j = next[4] = 3
    • 此时模式串跳跃到 j=3,继续比较 s[3]('B')与当前主串字符'B'
    • 匹配成功 → j=4

      …………

稳定的复杂度

初看代码中的 while (j > 0 && s[j] != text[i]) 循环,似乎存在双重循环的风险。但仔细观察,主串指针 i 永远只向前移动,而模式串指针 j 的移动轨迹像弹簧一样——虽然会回缩,但整体趋势必然向前。

  1. j 的移动范围:在任何时刻,j 的取值范围是 [0, m](m为模式串长度)。
  2. j 的总增加量:外层循环中,i 从 0 移动到 n(主串长度),每次循环 j 最多增加 1if (s[j] == text[i]) ++j)。因此,j 在整个算法中最多增加 n
  3. j 的回退成本:每次进入 while 循环回退 j 时,j 至少减少 1。由于 j 的总减少量不可能超过总增加量,整个算法的 while 循环最多执行 n

所以 KMP 模式匹配拥有稳定的线性复杂度。

  • 构造前缀函数的时间复杂度:O(m)(模式串长度)
  • 匹配过程的时间复杂度:O(n)(主串长度)
  • 总时间复杂度O(m + n),严格线性!

回到最初的灾难性案例:

  • 主串AAAAA...AAB(100万A + B)
  • 模式串AAAAAAAC
  • KMP的表现
    1. 主串指针 i 从 0 移动到 100万,全程无回溯
    2. 每次失配时,模式串指针 j 通过前缀函数迅速回退到 0
    3. 总操作次数 ≈ 100万(主串长度) + 8(模式串长度)
操作 暴力解法 KMP
主串指针移动 反复回退 永不回退
模式串指针移动 每次从头开始 弹性跳跃
极端案例复杂度 O(mn) → 爆炸 O(m+n) → 稳如狗

拓展思考:预装导航地图

仔细观察会发现,KMP的匹配过程本质上是一个状态转移游戏:当前已匹配的字符数 j 构成状态,遇到主串字符 text[i] 时,根据模式串的规律跳转到新状态。

假设我们想用同一个模式串反复匹配不同主串,原始的KMP算法每次匹配时仍需执行 while (j > 0 && s[j] != text[i]) 的跳跃逻辑。其实,若匹配时两次出现“已匹配5个字符,下一个字符是 c”的情况,他们经历的跳转是完全相同的。若我们提前为每个状态 j 和每个可能的字符 c 预计算跳转目标,就能实现查表式一步跳转,将匹配过程优化到极致。

构建一个二维数组 aut[j][c],表示在状态 j(已匹配前 j 个字符)时,遇到字符 c 应该跳转到哪个新状态。预处理过程如下:

vector<vector<int>> aut(m+1, vector<int>(256)); // m为模式串长度
for (int j = 0; j <= m; ++j) {
for (char c : 字符集) { // 如ASCII码
if (j < m && c == s[j])
aut[j][c] = j + 1; // 直接匹配成功
else
aut[j][c] = aut[next[j]][c]; // 关键递推!
}
}

这样,我们直接处理出了每一个已匹配长度遇到每一个字符应跳转到哪里,再之后的匹配再也不会出现跳转了,更高效。这种改造将匹配过程中的 while 循环彻底消除,代价是增加了 O(m*|Σ|) 的空间。高频查询时,这是值得的——就像快递员第一次摸清路线后,后续送货直接走最优路径。

以模式串 s = "ABABC" 为例:

  • 原始前缀函数 next = [0,0,1,2,0]
  • 预处理后,aut[2]['A'] 为3,;因为 AB 后刚好是 A;aut[4]['A'] 也为 3.
方案 预处理时间 单次匹配时间 适用场景
原始KMP O(m) O(n) 低频次匹配
自动机优化 O(m*|Σ|) O(n) 高频次匹配

(其中 |Σ| 为字符集大小,ASCII为256,Unicode需优化存储)

前缀函数和 KMP "跳步骤"模式匹配的更多相关文章

  1. 2021.08.30 前缀函数和KMP

    2021.08.30 前缀函数和KMP KMP算法详解-彻底清楚了(转载+部分原创) - sofu6 - 博客园 (cnblogs.com) KMP算法next数组的一种理解思路 - 挠到头秃 - 博 ...

  2. 前缀函数与Z函数介绍

    字符串算法果然玄学=_= 参考资料: OI Wiki:前缀函数与KMP算法 OI Wiki:Z函数(扩展KMP) 0. 约定 字符串的下标从 \(0\) 开始.\(|s|\) 表示字符串 \(s\) ...

  3. 浅谈KMP“串”的模式匹配问题

    感悟:预处理next[ ]数组求解B串的"自我匹配过程",思路与KMP类似,目标得到最大相同的前缀.后缀. ([1->k]==[i-k+1,i]),可以根据由前往后,利用前面 ...

  4. sublime怎么实现函数之间的跳转

    1.安装ctags应用程序. 到CTags的官方站点下载最新版本号,将解压后的ctags.exe放到系统环境变量的搜索路径中.通常是C:\windows\system32. 假设你想放到其它目录中,记 ...

  5. tagbar 调到函数定义再跳回

    首先要在源码文件夹下执行 ctags -R * 生成tags文件 齐次要安装 YouCompleteMe ctrl + ] 跳到函数定义 Ctrl-o 和 Ctrl-I 跳回.我试验的只有 Ctrl- ...

  6. CSU 1598 最长公共前缀 (简单KMP或者暴力)

    Submit Page    Summary    Time Limit: 1 Sec     Memory Limit: 128 Mb     Submitted: 226     Solved: ...

  7. HUST 1328 String (字符串前缀子串个数 --- KMP)

    题意 给定一个字符串S,定义子串subS[i] = S[0..i],定义C[i]为S中subS[i]的数量,求sigma(C[i])(0<=i<N). 思路 我们以子串结尾的位置来划分阶段 ...

  8. KMP 串的模式匹配 (25 分)

    给定两个由英文字母组成的字符串 String 和 Pattern,要求找到 Pattern 在 String 中第一次出现的位置,并将此位置后的 String 的子串输出.如果找不到,则输出“Not ...

  9. KMP 串的模式匹配 (25分)

    给定两个由英文字母组成的字符串 String 和 Pattern,要求找到 Pattern 在 String 中第一次出现的位置,并将此位置后的 String 的子串输出.如果找不到,则输出“Not ...

  10. KMP 串的模式匹配 (25 分)

    给定两个由英文字母组成的字符串 String 和 Pattern,要求找到 Pattern 在 String 中第一次出现的位置,并将此位置后的 String 的子串输出.如果找不到,则输出“Not ...

随机推荐

  1. CSV文件处理工具-CsvUtil

    介绍 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本). Hutool针对此格式,参考 ...

  2. Qt音视频开发45-视频传输TCP版

    一.前言 做音视频开发,会遇到将音视频重新转发出去的需求,当然终极大法是推流转发,还有一些简单的场景是直接自定义协议将视频传出去就行,局域网的话速度还是不错的.很多年前就做过类似的项目,无非就是将本地 ...

  3. 有道云笔记默认的笔记格式转markdown

    目录 0. 前言 1. 有道云笔记自带的笔记格式转markdown的方案 1.1 pdf => md 1.2 pdf => word => md 2. Markdown技巧 2.1 ...

  4. macos(m1)编译测试深度学习推理框架

    mnn build tnn

  5. 解决Playwright访问https证书问题

    # 参数说明 ignore_https_errors=True 访问https地址解决安全证书 viewport={"width": 1920, "height" ...

  6. Appium_WebDriverAgent安装

      一.WebDriverAgent安装到ios测试设备 a) 切换到appium 的appium-webdriveragent目录(/Applications/Appium.app/Contents ...

  7. ABAP配置:OY01 定义国家/地区

    配置:OY01 定义国家/地区 事务代码:OY01 配置路径: SPRO-ABAP平台-常规设置-设置国家-定义国家/地区 配置路径截图: 配置描述: 国家是SAP里面一个非常重要的概念,SAP国家概 ...

  8. biancheng-Hibernate框架

    目录http://c.biancheng.net/hibernate/ 1ORM是什么2Hibernate是什么3Hibernate项目创建流程4Hibernate增删改查操作5Hibernate工作 ...

  9. .net工作流elsa-触发器

    必备知识 触发器会用到书签和调度,这个在我的另外两篇文章中有分析. 什么是触发器 可以直接调用流程引擎的IWorkflowRuntime获取IWorkflowClient,然后调用它的CreateAn ...

  10. 数组 & 结构 & 位域 & 联合 & 枚举 & typedef

    C语言提供的五种自定义的构造数据类型: 数组: 是处理同一名字下的不同类型变量的结合体 结构: 是一种归在同一名字下相关的不同类型变量的结合,也可称为不同数据类型的集成体 位域:允许按为访问数据成员的 ...