数据结构--KMP算法总结

数据结构—KMP

KMP算法用于解决两个字符串匹配的问题，但更多的时候用到的是next数组的含义，用到next数组的时候，大多是题目跟前后缀有关的。

首先介绍KMP算法：（假定next数组已经学会，后边next数组会在介绍）

上图T为主链，P为模板链，要求P在T中是否出现，出现就返回位置。

朴素算法会顺序遍历，比较第一次的时候p[0]处失配，然后向后移动继续匹配。数据量大的时候这么做肯定是不可行的。所以这里就会有KMP算法！在一次失配之后，KMP算法认为这里已经失配了，就不能在比较一遍了，而是将字符串P向前移动(已匹配长度-最大公共长度)位，接着继续比较下一个位置。这里已匹配长度好理解，但是最大公共长度是什么呐？这里就出现了next数组，next数组：next[i]表示的是P[0-i]最大公共前后缀公共长度。这里肯定又有人要问了，next数组这么奇葩的定义，为什么就能算出来字符串需要向后平移几位才不会重复比较呐？

上图中红星标记为例，此时在p[4]处失配，已匹配长度为4,而next[3]=2(也就是babaa中前后缀最大公共长度为0)，这时候向后平移已匹配长度-最大公共长度=2位,P[0]到达原来的P[2]的位置，如果只平移一位,P[0]到达p[1]的位置这个位置没有匹配这次操作就是无用功所以浪费掉了时间。已知前缀后缀中的最大公共长度，下次位移的时候直接把前缀位移到后缀上面直接产生匹配，这样直接从后缀的后一位开始比较就可以了。这样将一下无意义的位移过滤掉剩去了不少的时间。

下面讲解next数组通过语言进行实现：

void makeNext(const char P[],int next[])

{

    int q,k;

    int m=strlen(P);

    next[]=;

    for (q=,k=;q<m;++q)

    {

        while(k>&&P[q]!=P[k])

            k = next[k-];

        /*

        这里的while循环很不好理解！

        就是用一个循环来求出前后缀最大公共长度；

        首先比较P[q]和P[K]是否相等如果相等的话说明已经K的数值就是已匹配到的长的；

        如果不相等的话，那么next[k-1]与P[q]的长度，为什么呐？因为当前长度不合适

        了，不能增长模板链，就缩小看看next[k-1]

        的长度能够不能和P[q]匹配，这么一直递归下去直到找到

        */

        if(P[q]==P[k])//如果当前位置也能匹配上，那么长度可以+1

        {

            k++;

        }

        next[q]=k;

    }

}

上面KMP算法的理论部分已经讲解完了，下面解释语言实现：

int kmp(const char T[],const char P[],int next[])

{

    int n,m;

    int i,q;

    n = strlen(T);

    m = strlen(P);

    makeNext(P,next);

    for (i=,q=;i<n;++i)

    {

        while(q>&&P[q]!= T[i])

            q = next[q-];

        /*

        这里的循环就是位移之后P的前几个字符能个T模板匹配

        */

        if(P[q]==T[i])

        {

            q++;

        }

        if(q==m)//如果能匹配的长度刚好是T的长度那么就是找到了一个能匹配成功的位置

        {

            printf("Pattern occurs with shift:%d\n",(i-m+));

        }

    }

}

另外KMP算法还可以进一步的优化：

/*************************KMP模板****************************/

int next[];//优化后的失配指针,记住这里next要比P多一位,因为P到m-1即可,但是next还要计算出m的失配指针

int next2[];//next2用来保存KM指针，是为优化next的失配指针,next保存的是优化之后的失配指针

char T[];//待匹配串

char P[];//模板串

void makeNext(char *P, int *next)

{

    int m = strlen(P);

    next[]=next[]=;

    next2[]=next2[]=;

    for(int i=;i<m;i++)

    {

        int j = next2[i];

        //这里直接找出当前位置上一步的next，和上一步不断保存K值是一个道理

        while(j && P[i]!=P[j])

            j = next2[j];

        next2[i+]=next[i+]=(P[i]==P[j])?j+:;

 

        //既然i+1的失配位置指向j+1，但是P[i+1]和P[j+1]的内容是相同的

        //所以就算指针从i+1跳到j+1去，还是不能匹配，所以next[i+1]直接=next[j+1]

        if(next[i+]==j+ && P[i+]==P[j+]) //这一步就是进行优化，如果下一个位置还能和当前位置匹配那么直接更新next数组的值

            next[i+]=next[j+];

    }

}

void kmp(char *T, char *P, int *next) //找到所有匹配点

{

    int n = strlen(T);

    int m = strlen(P);

    int j = ;

    for(int i = ; i < n; i++)

    {

        while(j && T[i] != P[j]) j = next[j];//向前移动了多少

        inext(T[i] == P[j]) j++;

        inext(j == m) printnext("%d\n", i - m + );

    }

}

/*************************KMP模板****************************/

扩展KMP算法

这里稍稍的提一点，时间仓促，我也还没有彻底的理解……啧啧啧

理论部分如果我讲的不好别喷，求T与S[i,n-1]的最长公共前缀extend[i]，要求出所有extend[i](0<=i<n)。下面从模板中讲解：

const int maxn=;   //字符串长度最大值

int next[maxn],ex[maxn]; //ex数组即为extend数组

/*

extend数组,extend[i]表示T与S[i,n-1]的最长公共前缀，要求出所有extend[i](0<=i<n)。

*/

 

/*

设辅助数组next[i]表示T[i,m-1]和T的最长公共前缀长度

*/

 

//预处理计算next数组

void GETNEXT(char *str)

{

    int i=,j,po,len=strlen(str);

    next[]=len;//初始化next[0]

    /*

    0到n-1组成的字符串和str的最长公共前缀长度当然是len了

    */

    while(str[i]==str[i+]&&i+<len)//计算next[1]，也就是第一位的时候能匹配多少

    i++;

    next[]=i;

    po=;//初始化po的位置

    for(i=;i<len;i++)

    {

        if(next[i-po]+i<next[po]+po)//第一种情况，可以直接得到next[i]的值

        /*

        如果不如之前计算过的最长的长就直接赋值为最长的那个

        */

        next[i]=next[i-po];

        else//第二种情况，要继续匹配才能得到next[i]的值

        /*

        比最长的还短，那么后面的就不是到了，所以要继续匹配

        */

        {

            j=next[po]+po-i;

            if(j<)j=;//如果i>po+next[po],则要从头开始匹配

            while(i+j<len&&str[j]==str[j+i])//计算next[i]

            j++;

            next[i]=j;

            po=i;//更新po的位置

        }

    }

}

//计算extend数组

void EXKMP(char *s1,char *s2)

{

    int i=,j,po,len=strlen(s1),l2=strlen(s2);

    GETNEXT(s2);//计算子串的next数组

    while(s1[i]==s2[i]&&i<l2&&i<len)//计算ex[0]

    i++;

    ex[]=i;

    po=;//初始化po的位置

    for(i=;i<len;i++)

    {

        if(next[i-po]+i<ex[po]+po)//第一种情况，直接可以得到ex[i]的值

        ex[i]=next[i-po];

        else//第二种情况，要继续匹配才能得到ex[i]的值

        {

            j=ex[po]+po-i;

            if(j<)j=;//如果i>ex[po]+po则要从头开始匹配

            while(i+j<len&&j<l2&&s1[j+i]==s2[j])//计算ex[i]

            j++;

            ex[i]=j;

            po=i;//更新po的位置

        }

    }

}

数据结构--KMP算法总结的更多相关文章

实验数据结构——KMP算法Test.ming
翻译计划小明初学者C++,它确定了四个算术.关系运算符.逻辑运算.颂值操作.输入输出.使用简单的选择和循环结构.但他的英语不是很好,记住太多的保留字,他利用汉语拼音的保留字,小屋C++,发明 ...
数据结构——KMP算法
算法介绍 KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法).KMP算法的核心是利用 ...
数据结构-kmp算法
定义改进字符串的匹配算法关键:通过实现一个包含了模式串的局部匹配信息的next()函数,利用匹配失败的信息,减少匹配次数. 1.BF算法暴力匹配给定文本串S "BBC ABCDAB ...
<数据结构>KMP算法
next数组定义严格定义:next[i]表示使子串s[0...k] == s[i-k...i]的最大的k(前后缀可以重叠,但不能是s[0..i]本身) 含义:最长相等前后缀的下标,没有则赋-1 图 ...
大话数据结构——KMP算法（还存在问题）
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html /*#include& ...
数据结构KMP算法中手算next数组
总结一下今天的收获(以王道数据结构书上的为例子,虽然我没看它上面的...):其中竖着的一列值是模式串前缀和后缀最长公共前缀. 最后求得的结果符合书上的结果,如果是以-1开头的话就不需要再加1,如果是以 ...
数据结构- 串的模式匹配算法：BF和 KMP算法
数据结构- 串的模式匹配算法:BF和 KMP算法 Brute-Force算法的思想 1．BF(Brute-Force)算法 Brute-Force算法的基本思想是: 1) 从目标串s 的第一个字 ...
数据结构与算法--KMP算法查找子字符串
数据结构与算法--KMP算法查找子字符串部分内容和图片来自这三篇文章: 这篇文章.这篇文章.还有这篇他们写得非常棒.结合他们的解释和自己的理解,完成了本文. 上一节介绍了暴力法查找子字符串,同时也发 ...
【数据结构】KMP算法
我还是不太懂... 转2篇大神的解释 1>https://www.cnblogs.com/yjiyjige/p/3263858.html 2>https://blog.csd ...

随机推荐

Jupyter（Python）中无法使用Cache原理分析
前言最近需要在Jupyter中写一个类库,其中有一个文件实现从数据库中读取空间数据并加载为Feature对象,Feature对象是cartopy封装的geomery列表,能够方便的用于作图等.因为有 ...
GCD之异步同步体会
前面的博文也有写到同步异步,可能是看他人的博文,自己没有实验,感觉理解不深,所以就敲了些代码比较一下串行.并行分别对应的同步.异步. 1.首先创建串行.并行线程队列 1 2 dispatch_queu ...
反射结合xml简单的模拟spring创建bean
框架最底层其实就是通过反射实现的,就像spring,当你配置各种各样的bean时都是以配置文件的形式配置的,你需要用到哪些bean就配哪些,spring容器就会根据你的需求去动态加载,这儿写一个简单的 ...
Python迭代器，生成器--精华中的精华
1. 迭代器迭代器是访问集合元素的一种方式.迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束.迭代器只能往前不会后退,不过这也没什么,因为人们很少在迭代途中往后退.另外,迭代器的一大 ...
理解ios 11中webview的视口
iOS 11在状态栏区域带来了一些新的,也许是不直观的行为,这对使用Apache Cordova或Ionic等工具的开发人员尤为重要.特别是,这种行为变化会影响任何基于Web的应用程序,这些应用程序在 ...
Java 自增（++）和 C语言中自增的区别
在Java.c语言等高级语言中自增和自减的作用基本一致,都是变量自身加一或减一.下面我只对自增进行说明,自减是类似的. 自增运算符(++),有两种书写形式,一个是在变量前: ++ num; 另一种在变 ...
HiWord()
#define HIWORD(I) ( ( WORD ) ( ( ( DWORD )( I ) >> 16) & 0xFFFF ) ). 这个宏传回一个WORD值(16位的无符号整 ...
Flip Game poj 1753
Flip Game Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 29731 Accepted: 12886 Descr ...
Race to 1 概率dp
Race to 1 Time Limit: 10000MS Memory Limit: Unknown 64bit IO Format: %lld & %llu [Submit] ...
【转】Python装饰器与面向切面编程
原文请参考: http://www.cnblogs.com/huxi/archive/2011/03/01/1967600.html 今天来讨论一下装饰器.装饰器是一个很著名的设计模式,经常被用于有切 ...

数据结构--KMP算法总结

数据结构--KMP算法总结的更多相关文章

随机推荐

热门专题