KMP算法

说明

KMP算法是一种比较高效的字符串匹配算法,可以在线性时间内求出一个串在另一个串的所有匹配位置。

解析

详解KMP

设模板串是 \(pattern\) 令 \(next[i] = max\{k|pattern[0...k-1]=pattern[i-k+1...i]\}\), \(next[]\) 可以通过动态规划求解。

板子

\(next\)数组存在的意义:

当 \(A\) 串匹配到 \(i\), \(B\) 串匹配到 \(j\)时, 如果发现失配,可以直接令 \(j = next[i]\) 然后继续匹配, ( \(next[i]\) 将记录如果 \(B\) 串匹配到 \(A\) 的 \(i\) 位置,前面有多少是已经匹配了的。)

\(next\) 数组的求法

算法流程

  1. 初始化 \(next[1] = j = 0\) ,假设 \(next[1...i-1]\) 已经求出,下面求解 \(next[i]\)
  2. 不断尝试扩展长度 \(j\), 如果扩展失败(下一个字符不相等),令 \(j\) 变为 \(next[j]\), 直至 \(j = 0\)(应该从头开始匹配)
  3. 如果扩展成功,匹配长度 \(j\) 就增加 \(1\), \(next[i]\) 的值就是 \(j\)。
inline void calc_next() {
next[1] = 0;
for (int i = 2, j = 0; i <= n; ++ i) {
while (j > 0 && a[i] != a[j + 1]) j = next[j];
if (a[i] == a[j + 1]) j ++;
next[i] = j;
}
}

我们用\(f\)数组记录每个位置能匹配的个数,基于 \(next\) 数组,我们能在 \(O(n + m)\) 的时间处理结果

inline void calc_f() {
for (int i = 1, j = 0; i <= m; ++ i) {
while (j > 0 && (j == n || b[i] != a[j + 1])) j = next[j];
if (b[i] == a[j + 1]) j ++;
f[i] = j;
if (f[i] == n) {/* the first time */}
}
}

拓展KMP算法

说明

在线性复杂度内求出一个串对于另一个串的每个后缀的最长公共前缀

解析

假设两个串是 \(s\) 和 \(p\), 要求 \(p\) 的每个 \(s\) 的后缀的最长公共前缀.

我们可以先求出 \(p\) 与它自己的每个后缀的最长公共前缀(假设为 \(A\))。类似KMP的思想,假设我们现在要计算 \(p\) 的第 \(i\) 个字符开头的后缀,而我们已经得到了 \(A[1...i-1]\), 我们可以找到以前的一个 \(k\) 使得 \(k + A[k] - 1\) 最大(就是匹配到的范围最大),我们可以得知 \(p[1...A[k]] = p[k...k+A[k]-1]\), 于是可以得到 \(p[i...k+A[k]-1] = p[i-k+1...A[k]]\),即我们可以利用 \(A[i - j + 1]\) 的信息。

分两种情况讨论,如果 \(i+A[i-k+1]-1\)比\(k+A[k]-1\)小,则 \(A[k] = A[i - k + 1]\) ,否则暴力扫一次。计算 \(p\) 与 \(s\) 的后缀的最长公共前缀也是类似的方法,可以证明复杂度是线性的。

板子

(未精简版本)

输入:求 \(a\) 关于 \(b\) 的后缀的最长公共前缀, \(Next\) 记录 \(a\)关于自己每个后缀的最长公共前缀, \(ret\) 记录 \(a\) 关于 \(b\) 的后缀的最长公共前缀

void ExtendedKMP(char *a, char *b, int M, int N, int *Next, int *ret) {
int i, j, k;
for (j = 0; 1 + j < M && a[j] == a[1 + j]; ++ j);
Next[1] = j;
k = 1;
for (i = 2; i < M; ++ i) {
int Len = k + Next[k], L = Next[i - k];
if (L < Len - i) {
Next[i] = L;
} else {
for (j = max(0, Len - i); i + j < M && a[j] == a[i + j]; ++ j);
Next[i] = j;
k = i;
}
}
for (j = 0; j < N && j < M && a[j] == b[j]; ++ j);
ret[0] = j;
k = 0;
for (i = 1; i < N; ++ i) {
int Len = k + ret[k], L = Next[i - k];
if (L < Len - i) {
ret[i] = L;
} else {
for (j = max(0, Len - i); j < M && i + j < N && a[j] == b[i + j]; ++ j);
ret[i] = j;
k = i;
}
}
}

KMP&拓展KMP的更多相关文章

  1. hdu-4763(kmp+拓展kmp)

    题意:给你一个串,问你满足最大字串既是前后缀,也在字符串除去前后缀的位置中出现过: 思路:我用的是拓展kmp求的前后缀,只用kmp也能解,在字符串2/3的位置后开始遍历,如果用一个maxx保存前2/3 ...

  2. hdu-4300(kmp或者拓展kmp)

    题意:乱七八糟说了一大堆,就是先给你一个长度26的字符串,对应了abcd....xyz,这是一个密码表.然后给你一个字符串,这个字符串是不完整的(完整的应该是前半部分是加密的,后半部分是解密了的),然 ...

  3. poj-2752(拓展kmp)

    题意:求一个串所有的前后缀字串: 解题思路:kmp和拓展kmp都行,个人感觉拓展kmp更裸一点: 拓展kmp: #include<iostream> #include<algorit ...

  4. hdu 4333"Revolving Digits"(KMP求字符串最小循环节+拓展KMP)

    传送门 题意: 此题意很好理解,便不在此赘述: 题解: 解题思路:KMP求字符串最小循环节+拓展KMP ①首先,根据KMP求字符串最小循环节的算法求出字符串s的最小循环节的长度,记为 k: ②根据拓展 ...

  5. HDU 3613 Best Reward(拓展KMP算法求解)

    题目链接: https://cn.vjudge.net/problem/HDU-3613 After an uphill battle, General Li won a great victory. ...

  6. 拓展KMP算法详解

    拓展KMP解决的问题是给两个串S和T,长度分别是n和m,求S的每一个后缀子串与T的最长公共前缀分别是多少,记作extend数组,也就是说extend[i]表示S[i,n-1](i从0开始)和T的最长公 ...

  7. Period II FZU - 1901(拓展kmp)

    拓展kmp板题 emm...我比较懒 最后一个字母进了vector两个1  不想改了...就加了个去重... 哈哈 #include <iostream> #include <cst ...

  8. Simpsons’ Hidden Talents HDU - 2594(拓展kmp)

    Sample Input clinton homer riemann marjorie Sample Output 0 rie 3 看输出才题意...拓展kmp特征很明显嘛....注意开始就匹配到尾的 ...

  9. Seek the Name, Seek the Fame POJ - 2752(拓展kmp || kmp)

    题意: 就是求前缀和后缀相同的那个子串的长度  然后从小到大输出 解析: emm...网上都用kmp...我..用拓展kmp做的  这就是拓展kmp板题嘛... 求出extend数组后  把exten ...

随机推荐

  1. iOS 8 新特性介绍

    来源:nshipster.cn 发布时间:2014-07-06 阅读次数:2152 随便去问任何人,他们都会告诉你WWDC2014是近年来最为激动的回忆. 整个大会没有发布任何新硬件,它是一次史无前例 ...

  2. Swift - 触摸事件响应机制(UiView事件传递)

    import UIKit class FatherView: UIView { override func hitTest(point: CGPoint, withEvent event: UIEve ...

  3. windows MySQL5.7.9免安装版配置方法

    1. 解压MySQL压缩包    将下载的MySQL压缩包解压到自定义目录下,我的解压目录是:    "D:\Program Files\mysql-5.7.9-win32"    ...

  4. 小技巧------教你释放C盘空间

    1.删除休眠文件hiberfil.sys. 该文件在c盘根部目录为隐藏的系统文件,隐藏的这个hiberfil.sys文件大小正好和自己的物理内存是一致的,当你让电脑进入休眠状态时,windows7在关 ...

  5. 补课:PageRank

    最近连续听到PageRank算法,久闻其名,不闻其详,心里虚得很,今儿补补课. PageRank算法的网络资料非常全面,毕竟是将近二十年的经典算法,算法细节可以参考文末链接,这里简单说说我的理解. P ...

  6. 170713、springboot编程之多数据源切换

    我们在开发过程中可能需要用到多个数据源,我们有一个项目(MySQL)就是和别的项目(SQL Server)混合使用了.其中SQL Server是别的公司开发的,有些基本数据需要从他们平台进行调取,那么 ...

  7. 关于cdn原理(就是内容分发网络)

    cdn,我理解其本质就是为了解决距离远产生的速度问题,使用就近的服务. 从中国请求美国一台服务器上的图片.一般比较慢,因为距离这么远,网络传输是存在损耗的,距离越远,传输的时间就越长.一般会看到浏览器 ...

  8. .NET中将中文符号转换成英文符号

    public static string ConvertToEn(string text) { const string s1 = ".:,?!.“”‘’"; const stri ...

  9. pandas的drop函数

    当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据. 1.命令: df.drop() 删除行:df.drop('apps') ...

  10. wireshark udp 序列号 User Datagram Protocol UDP

    序列号等差2^8固定首部20字节首部20+4字节数据部分1378字节片偏移0位Quick UDP Internet