KMP算法中next函数的理解

首先要感谢http://blog.csdn.net/v_july_v/article/details/7041827以及http://blog.chinaunix.net/uid-27164517-id-3280128.html两篇博文的作者，参考这两篇博文才对KMP算法有了初步认识，本文的一些内容也是来自于这两篇之中。KMP算法与BF算法的优略、回溯不回溯这些问题本文不作说明，而主要说明next函数（通常保存为一个next数组）的意义。这正是KMP算法难于理解的地方。

　　为了方便起见，在不会起歧义的情况下做如下约定：下标都从0开始; 假设字符串为S，那么S_i 表示第i个字符或者只有第i个字符的字符串；S_iS_i+1S_i+2表示子串，如S₁S₂S₃，S₄S₅等等；pre(S,i)表示字符串S的位置i之前的字符串，即S₀S₁...S_i-1；next函数和next数组表示同一个意思。本文分为两节，第一节讲next函数的意义，得出需要满足的两个条件；第二节是具体代码以及相关说明。

第一节 next函数的意义

我们知道，KMP的基本匹配过程如下：在字符串T中查找模式P，需要记录T中的当前位置i 以及P中的当前位置 j。当T_i=P_j的时候i和j都自增；当T_i!=P_j时，令j=next(j)，然后继续匹配。这样就跳过了一些字符，而这些字符，本质上来讲与字符串P₀P_1...P_j-1的前缀和后缀能匹配的最大长度相关。以图一作解释，来倒推next(j)的意义：

图 1

在T中查找P，P₀P₁P₂P₃P₄=T₁T₂T₃T₄T₅，但P₅!=T₆（i=6,j=5）。此时令j=next(j)。假设next[5]=2, 则跳过三个字符，新的j=2，从这个位置开始比较。能跳过的条件是什么？其一，从虚线部分可知必须保证P₀P₁=P₃P₄；其二，P₅不能等于P2，因为之前我们知道了P₅!=T₆，如果P₅=P₂，那么P₂肯定不等于T_6。再次强调观察虚线部分，发现P₀P₁和P₃P₄正好是字符P₅前面的字符串（即P₀P₁P₂P₃P_4）的前缀和后缀。

图1中，P₅！=T₆时跳过了三个字符，next[5]=2。再看图2：next(5)分别等于4,3,1,0的情况。

图 2

仔细观察图2中的四种情况，均需要符合上面所说的条件。对于图2的最后一幅图，此种情况的条件是P₀P₁P₂P₃P₄没有相等的前缀和后缀，且P₀!=P_5。那么如果后一个条件不满足呢，那么显然P应该再移一个位置，对应的情况如图3：

图 3

图3中，next(5)=-1。因此next=-1的情况：P_j=P₀，且P₀P_1...P_j-1没有任何相等的前缀和后缀。另外，一般地，如果P₀就发生失配，那么显然i也要加一，因此next(0)=-1。

在此作一小结，k=next(j)需要满足的两个条件如下：

条件1. k是P₀P_1...P_j-1最长匹配的前缀和后缀的长度.

条件2. P_j!=P_k.

第二节 next函数的求法

利用以上知识，我们就知道求next函数的思路了。基本思路是利用上面的第一个条件（寻找最长匹配的前后缀），而第二个条件（P_j!=P_next(j)）则作为优化。这样一步步理解会对算法思路更清晰一点。

基本思路: 利用条件1

使用归纳法:假设next(j)=k，则P₀P₁...P_k-1=P_j-k...P_j-2P_j-1，那么next(j+1)有两种情况:

1. 如果P_k=P_j，则P₀P₁...P_k=P_j-k...P_j-1P_j，所以next(j+1)=k+1=next(j)+1。

2. 如果P_k!=P_j，这是可以看做另外一个字符串匹配的问题，主串和模式串都是p，当匹配失败时，k=next(k)。

因此得到如下算法：

void get_nextval(char const* ptrn, int plen, int* nextval)

{

    int i = 0;

    nextval[i] = -1;

    int j = -1;

    while( i < plen-1 )

    {

        if( j == -1 || ptrn[i] == ptrn[j] )   //对应情况1

        {

            ++i;

            ++j;

            next(i)=j;

        }

        else                                  //对应情况2

            j = nextval[j];

    }

}

上述算法中，ptrn是模式串，plen是模式串长度，nextval数组保存所有位置的next值。该算法不考虑条件2，因此有可能发生P_i=P_next(i)这种情况。在缺少该条件的情况下也可以用于做字符串匹配。假设next(i)=k，当匹配到i失效时，i=next(i)=k，这时候肯定也失效，因此又寻找k对应的next值，这样算法得以进行。

优化：利用条件2

比较常见的算法对情况1做了优化，如下:

 void get_nextval(char const* ptrn, int plen, int* nextval)

 {

     int i = ;

     nextval[i] = -;

     int j = -;

     while( i < plen- )

     {

         if( j == - || ptrn[i] == ptrn[j] )   //对应情况1

         {

             ++i;

             ++j;

             if( ptrn[i] != ptrn[j] )

                 nextval[i] = j;

             else

                 nextval[i] = nextval[j];

         }

         else                                  //对应情况2

             j = nextval[j];

     }

 }

　　该版本的算法考虑了条件2，因此进入情况1的时候，next(i)!=j。我们可以考虑一条查询链，如图4：

图4

假设现在刚刚运行完13行，得出next[i]=j。此时必然有ptrn[i]!=ptrn[j]。因此下个循环的时候会跳转到18行。该next链一直往前搜寻，直到某个位置k，ptrn[k]与ptrn[i]相等。该k就是最新的j值，这样回到情况1，接着按照条件1优化。另外，当j==-1也应当进入情况1，因为不能往前搜寻了。

以上就是next数组的求解过程，往后就可以利用next数组进行字符串查找了。在写查找算法的过程中，可以发现与求next数组的算法过程惊人的一致。这也是KMP算法的一个特点，把两者结合起来，更能够理解它的奥妙所在。

KMP算法中next函数的理解的更多相关文章

KMP算法中next数组的理解与算法的实现（java语言）
KMP 算法我们有写好的函数帮我们计算 Next 数组的值和 Nextval 数组的值,但是如果是考试,那就只能自己来手算这两个数组了,这里分享一下我的计算方法吧. 计算前缀 Next[i] 的值: ...
KMP算法中我对获取next数组的理解
之前在学KMP算法时一直理解不了获取next数组的函数是如何实现的,现在大概知道怎么一回事了,记录一下我对获取next数组的理解. KMP算法实现的原理就不再赘述了,先上KMP代码: 1 void g ...
KMP算法的next函数求解和分析过程
转自 wang0606120221:http://blog.csdn.net/wang0606120221/article/details/7402688 假设KMP算法中的模式串为P,主串为S,那么 ...
问题 1690: 算法4-7：KMP算法中的模式串移动数组
题目链接:https://www.dotcpp.com/oj/problem1690.html 题目描述字符串的子串定位称为模式匹配,模式匹配可以有多种方法.简单的算法可以使用两重嵌套循环,时间复杂 ...
KMP 算法中的 next 数组
KMP 算法中对 next 数组的理解 next 数组的意义此处 next[j] = k:则有 k 前面的浅蓝色区域和 j 前面的浅蓝色区域相同: next[j] 表示当位置 j 的字符串与主串不匹 ...
关于KMP算法中，获取next数组算法的理解
参考:KMP入门级别算法详解--终于解决了(next数组详解) https://blog.csdn.net/lee18254290736/article/details/77278769 在这里讨论的 ...
KMP算法中求next数组的实质
在串匹配模式中,KMP算法较蛮力法是高效的算法,我觉得其中最重要的一点就是求next数组: 看了很多资料才弄明白求next数组是怎么求的,我发现我的忘性真的比记性大很多,每次看到KMP算法求next数 ...
KMP算法中的几个疑问
KMP算法next数组求解实现首先我们通过应用场景将KMP算法中用到的名词做一个说明: 在一个字符串(string1)中查询是否存在另一个字符串(string2). 在字符串匹配算法中,我们通常将字 ...
poj 2406:Power Strings（KMP算法，next[]数组的理解）
Power Strings Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 30069 Accepted: 12553 D ...

随机推荐

闹钟--alarmManager
1.AlarmManager,顾名思义,就是“提醒”,是Android中常用的一种系统级别的提示服务,在特定的时刻为我们广播一个指定的Intent.简单的说就是我们设定一个时间,然后在该时间到来时 ...
iOS开发设置状态栏样式
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleDefault animated:NO];
探究requestDisallowInterceptTouchEvent失效的原因
昨天在用requestDisallowInterceptTouchEvent的时候,发如今设置了requestDisallowInterceptTouchEvent(true)之后,父View的onI ...
grep使用方法
linux grep命令详解简介 grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来 ...
java 字符串转码
//xmlStr 为需要转码的字符串 UTF-8 可改为不同的编码格式如:GBK //亲测可用仅供参考 String xmlStrs=""; try{ xmlStrs=new ...
【CITE】C# 如何实现一个窗体和另一个窗体始终保持相对的位置
C# 如何实现一个窗体和另一个窗体始终保持相对的位置,任由一个窗体移动,当点击按钮时,弹出的另一个窗体也与之保持相对位置(如左上角)你根据第一个窗体的location去算第二个窗体的location ...
js 返回上一页和刷新
1. Javascript 返回上一页history.go(-1), 返回两个页面: history.go(-2); 2. history.back(). 3. window.history.forw ...
HTML5自学笔记[ 14 ]canvas绘图基础2
canvas绘制路径不仅可以绘制直线和多边形,还提供了绘制曲线的方法,利用这些方法可以画出多种曲线效果. 方法1:arc(x,y,r,起始弧度,结束弧度,绘制方向);其中(x,y)为圆心坐标,r为半径 ...
sh脚本异常：bad interpreter: No such file or directory
转:http://bluedest.iteye.com/blog/1674963 在Linux中执行.sh脚本,异常/bin/sh^M: bad interpreter: No such file o ...
C/C++ 关于生成静态库（lib)/动态库(dll)文件如何使用(基于windows基础篇)
1. 首先,如何制作一个静态库(lib)? 额, 对于静态库,我们知道,里头是不应该有Main函数,它只是一个配合文件.之所以称之为lib静态库,其实就是指,我们需要用到lib里头的函数时,我们才会去 ...

KMP算法中next函数的理解

KMP算法中next函数的理解的更多相关文章

随机推荐

热门专题