KMP 算法中对 next 数组的理解

next 数组的意义

此处 next[j] = k；则有 k 前面的浅蓝色区域和 j 前面的浅蓝色区域相同；

next[j] 表示当位置 j 的字符串与主串不匹配时，下一个需要和主串比较的字串位置在 next[j] 处；有下图：

若当前位置 j 与主串某一个字符不匹配，则下一次比较的是 K 与主串的当前位置，这个 K 也就是next[j]；由于两个浅蓝色区域相同，因此 K 前面的区域肯定与主串相同，不需比较；如下图：

由上图可知，K 前面的区域不需比较；

next 数组的推导

从 next 数组所表达的意义可知，我们要求 next[j]，首先要找到一个 K，这个 K 前面的浅蓝色区域和 j 前面的浅蓝色区域相同；如下图：

根据规定 next[1] = 0；接下来求其他的 next[j]；

对于 next[2] 可得其必然为 next[2] = 1；

如下图：当第二个元素不匹配时，j 将退回到 1 处进行比较，因此 next[2] 一定为 1；

接下来是一般情况的推导，此处使用递推法进行推导，即已知 next[j] 求 next[j + 1]；

若 next[j] = k 则有下图：

由于 next[j = k，可知浅蓝色部分相同；接下来分两种情况讨论；

ch[K] == ch[j]，这种情况时，可以得到下图；

由图可知：对于 j + 1，能够找到一个 K + 1 使得有浅蓝色区域相同，那么当 j + 1 不匹配时，下一次将比较 K + 1 和主串；因此 next[j + 1] = K + 1 = next[j] + 1；

ch[K] != ch[j]，这种情况就变的复杂，这也是整个 KMP 算法中最难理解的部分；

从本节的开头可以知道，求 next[j + 1] 最关键的一点在于求 j + 1 之前有多长的后缀和前缀匹配，即找出多大的浅蓝色区域匹配；我们现在面对的图如下：

我们的目的是找到一个 K1 使得出现下列情况：找到 K1 使得浅蓝色部分相同；

要想浅蓝色部分相同，分为两个部分，使得 1 和 2 相同，使得 K1 和 j 相同；

想要让 1 和 2 相同是难以比较的，但是可以转化为另一个问题，如下图：

想要找出 1 和 3 相同的区域，等价与找到 1 和 2 相同的区域；为什么呢？因为 next[j] = K，因此 j 前面与 K 前面相同如下图：

这个等价关系非常重要，是这部分推导的关键；将其单独抽离出来如下图：

那么如何得到 K1 使得 1 和 2 相同呢？回到文首 next[j] 所表示的意义，next[j] = k；则有 k 前面的浅蓝色区域和 j 前面的浅蓝色区域相同 而 next[K] 是在 j 前面的是已知的，因此可得 K1 = next[K]，此时得到的 K1 即可满足 1 和 3 相同；

到此就解决了 1 和 3 相等的问题，直接比较 K1 和 j 若两者相同，则可得到下图；

那么 next[j + 1] = K1 + 1 = next[K] + 1 = next[next[j]] + 1；

那么若 ch[j] != ch[K1] 呢？那么就又演化为如下问题：

这个图和本小节开始的图相同，那么按照此方法解决即可；

可得结果：next[j + 1] = next[K1] + 1 = next[next[K]] + 1 = next[next[next[j]]] + 1

若下一次 K2 依然和 j 不相等，那么又接着递归即可；一直到 Kn = 0；

一个例子

接下来使用上面的结论来计算一个字符串的 next 数组；

有数组 ababaaababaa 转化为如下表：

S	a	b	a	b	a	a	a	b	a	b	a	a
编号	1	2	3	4	5	6	7	8	9	10	11	12
next	0	1	1	2	3	4	2	2	3	4	5	6

按如下顺序填表的 next 栏：

对于 next[1] 规定为 0，根据前面的分析：next[2] = 1；
对于 next[3]，则观察 2 和 next[2] = 1，即 b 和 a，不相等；而next[next[2]] = 0，因此 next[3] = 1；
对于 next[4]，观察 3 和 next[3] = 1，即 a 和 a，相等，故 next[4] = next[3] + 1 = 2；
对于 next[5]，观察 4 和 next[4] = 2，即 b 和 b，相等，故 next[5] = next[4] + 1 = 3；
对于 next[6]，观察 5 和 next[5] = 3，即 a 和 a，相等，故 next[6] = next[5] + 1 = 4；
对于 next[7]，观察 6 和 next[6] = 4，即 a 和 b，不相等，next[next[6]] = 2，与 6 比较即 b 和 a，不相等，继续递归 next[next[next[6]]] = next[next[4]] = next[2] = 1；比较 1 和 6 即 a 和 a，相等，因此 next[6] = next[next[next[6]] + 1 = 2；
对于 next[8]，观察 7 和 next[7] = 2，即 a 和 b，不相等，next[next[7]] = 1，1 和 7相等，因此 next[8] = next[next[7]] + 1 = next[2] + 1 = 2；
对于 next[9]，观察 8 和 next[8] = 2，即 b 和 b，相等，故 next[9] = next[8] + 1 = 3；
对于 next[10]，观察 9 和 next[9] = 1，即 a 和 a，相等，故 next[10] = next[9] + 1 = 4；
对于 next[11]，观察 10 和 next[10] = 2，即 b 和 b，相等，故 next[11] = next[10] + 1 = 5；
对于 next[12]，观察 11 和 next[11] = 3，即 a 和 a，相等，故 next[12] = next[11] + 1 = 6；

通过以上分析得到的获取 next 数组的代码如下：

void get_next(String T, int next[]) {

    int k = 0, j = 1;

    next[1] = 0;

    while (j < T.length)

    {

        if(k == 0 || T.ch[k] == T.ch[j]) {

            k++;

            j++;

            next[j] = k;

        } else {

            k = next[k];

        }

    }

}

那么接下来的 KMP 算法代码就比较容易了：

int KMP(String S, String T, int next[]) {

    int i = 1, j = 1;

    while (i <= S.length && j <= T.length)

    {

        if(j == 0 || S.ch[i] == T.ch[j]) {

            i++;

            j++;

        } else {

            j = next[j];

        }

    }

    if(j > T.length) {

        return i - T.length;

    } else {

        return 0;

    }

}

测试代码如下：

#include<iostream>

using namespace std;

const int MAX = 255;

typedef struct {

    char ch[MAX];

    int length;

} String;

void InitiString(String &s, char chars[]) {

    int len = 0;

    while(chars[len] != '\0') {

        s.ch[len + 1] = chars[len];

        len++;

    }

    s.length = len;

}

void get_next(String T, int next[]) {

    int k = 0, j = 1;

    next[1] = 0;

    while (j < T.length)

    {

        if(k == 0 || T.ch[k] == T.ch[j]) {

            k++;

            j++;

            next[j] = k;

        } else {

            k = next[k];

        }

    }

}

int KMP(String S, String T, int next[]) {

    int i = 1, j = 1;

    while (i <= S.length && j <= T.length)

    {

        if(j == 0 || S.ch[i] == T.ch[j]) {

            i++;

            j++;

        } else {

            j = next[j];

        }

    }

    if(j > T.length) {

        return i - T.length;

    } else {

        return 0;

    }

}

int main() {

    char char1[20] = "aabaabaabaac";

    char char2[20] = "aabaac";

    String S, T;

    InitiString(S, char1);

    InitiString(T, char2);

    int next[MAX];

    get_next(T, next);

    int index  = KMP(S, T, next);

    printf("%d", index);

    return 0;

}

输出结果：

KMP 算法中的 next 数组的更多相关文章

KMP算法中求next数组的实质
在串匹配模式中,KMP算法较蛮力法是高效的算法,我觉得其中最重要的一点就是求next数组: 看了很多资料才弄明白求next数组是怎么求的,我发现我的忘性真的比记性大很多,每次看到KMP算法求next数 ...
kmp算法中的next数组实例解释
假设求串′ababaaababaa′的next数组模式串 a b a b a a a b a b a a 下标 1 2 3 4 5 6 7 8 9 10 11 12 1.前两位:next数组前两位一 ...
KMP算法中的next数组求解示意图
数据结构KMP算法中手算next数组
总结一下今天的收获(以王道数据结构书上的为例子,虽然我没看它上面的...):其中竖着的一列值是模式串前缀和后缀最长公共前缀. 最后求得的结果符合书上的结果,如果是以-1开头的话就不需要再加1,如果是以 ...
KMP算法中我对获取next数组的理解
之前在学KMP算法时一直理解不了获取next数组的函数是如何实现的,现在大概知道怎么一回事了,记录一下我对获取next数组的理解. KMP算法实现的原理就不再赘述了,先上KMP代码: 1 void g ...
问题 1690: 算法4-7：KMP算法中的模式串移动数组
题目链接:https://www.dotcpp.com/oj/problem1690.html 题目描述字符串的子串定位称为模式匹配,模式匹配可以有多种方法.简单的算法可以使用两重嵌套循环,时间复杂 ...
KMP算法中next数组的理解与算法的实现（java语言）
KMP 算法我们有写好的函数帮我们计算 Next 数组的值和 Nextval 数组的值,但是如果是考试,那就只能自己来手算这两个数组了,这里分享一下我的计算方法吧. 计算前缀 Next[i] 的值: ...
关于KMP算法中，获取next数组算法的理解
参考:KMP入门级别算法详解--终于解决了(next数组详解) https://blog.csdn.net/lee18254290736/article/details/77278769 在这里讨论的 ...
KMP算法中next数组的构建
记得初学$kmp$的时候老师让大家把它直接背下来然而不理解的话不仅调试起来比较慢很多题目也难往$kmp$上想 ----------------------------------------- ...

随机推荐

汇聚优质AR应用开发者，技术助力AR领域繁荣生态
本文分享于HMS Core开发者论坛<EasyAR--汇聚优质AR应用开发者,技术助力AR领域繁荣生态>采访文字稿 EasyAR空间计算平台为应用开发者提供稳定建图.定位能力和完善工具链, ...
图解python | 基础数据类型
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/56 本文地址:http://www.showmeai.tech/article-det ...
使用讯飞tts+ffmpeg自动生成视频
参考 FFmpeg 讯飞离线语音合成起因某日,看到一个营销号的视频说做视频日进斗金,大意是用软件识别文章小说,搭配一些图片转换成自己的视频.看完当时脑海里冒出一个念头,我也可以,于是有了这番尝试. ...
k8s节点简介、移除节点、新增节点
简介 Node是Pod真正运行的主机,可以是物理机也可以是虚拟机. Node本质上不是Kubernetes来创建的, Kubernetes只是管理Node上的资源. 为了管理Pod,每个Node节点上 ...
3款大数据bi工具，让企业数据分析更简单
企业数据可视化的髙速发展趋势让互联网时代的数据分析及可视化拥有全新的面貌.企业针对信息内容的数据分析及可视化,的要求在日益严格,那么有哪些在企业数据分析方面做得好的大数据bi工具呢? 一.大数据bi ...
【C#】COM线程模型-套间 ApartmentState
线程模式是微软的COM基础中的极其重要的概念.一定要吃透!初始一个STA套间实际上是相当于开了一个消息窗口,所有调用经此窗口过程调度到组件内. [STAThread] 可以理解成CoInitializ ...
【C# 程序集】.net core 3.0中动态卸载|卸载程序集
原文:https://docs.microsoft.com/zh-cn/dotnet/core/dependency-loading/understanding-assemblyloadcontext ...
分布式系统下的CAP定理
本文参考EricBrewer博客加上自己的理解整理. CAP定理又被成为布鲁尔定理,是加州大学计算机科学家埃里克·布鲁尔提出来的猜想,后来被证明成为分布式计算领域公认的定理. CAP定义,在高并发的场 ...
lsof、tcpdump和wireshark
lsof:https://www.jianshu.com/p/a3aa6b01b2e1 tcpdump:https://linux.cn/article-10191-1.html wireshark: ...
几行代码把Chrome搞崩溃之：HTML5 MP3录音由ScriptProcessorNode升级成AudioWorkletNode采坑记
关键词: STATUS_ACCESS_VIOLATION AudioContext AudioWorkletNode audioWorklet addModule resume suspended c ...