KMP和扩展KMP【转】

这种东西基本上在纸上自己推导一下就能做出来XD

KMP

给出两个字符串A（称为模板串）和B（称为子串），长度分别为lenA和lenB，要求在线性时间内，对于每个A[i] （0<=i<lenA)，求出A[i]往前和B的前缀匹配的最大匹配长度，记为ex[i]（或者说，ex[i]为满足A[i- z+1..i]==B[0..z-1]的最大的z值）。KMP的主要目的是求B是不是A的子串，以及若是，B在A中所有出现的位置（当 ex[i]=lenB时）。
【算法】
设next[i]为满足B[i-z+1..i]==B[0..z-1]的最大的z值（也就是B的自身匹配）。设目前next[0..lenB-1]与ex[0..i-1]均已求出，要用它们来求ex[i]的值。
根
据ex的定义，有A[i-1-ex[i-1]+1..i-1]==B[0..ex[i-1]-1]，这时，若有A[i]==B[ex[i-1]]，则可以
直接得到ex[i]=ex[i-1]+1（因为i-1-ex[i-1]+1即i-ex[i-1]，现在由于A[i]==B[ex[i-1]]，可得
A[i-ex[i-1]..i]==B[0..ex[i-1]]，即A[i-ex[i-1]+1-1..i]==B[0..ex[i-1]+1-1]，所
以ex[i]=ex[i-1]+1）。若A[i]!=B[ex[i-1]]？
设j=next[ex[i-1]-1]，
则根据next定义得B[ex[i-1]-j..ex[i-1]-1]==B[0..j-1]，又因为A[i-ex[i-1]..i-
1]==B[0..ex[i-1]-1]得A[i-j..i-1]==B[ex[i-1]-j..ex[i-1]-1]，这样有A[i-j..i-1]==B[0..j-1]！
也就是此时只需再比较A[i]与B[j]的值是否相等即可，若相等，可得ex[i]=j+1，若仍不相等，则更新j为next[j-1]，继续比较
A[i]与B[j]是否相等……直到A[i]与B[j]相等或直到j==0时，A[i]仍不等于B[j]，此时ex[i]=0。边界：求ex[0]时，初
始j（用来代替ex[i-1]）为0。
现在还有一个问题，如何求next？显然next就是以B自身为模板串，B为子串的“自身匹配”，用类似的办法即可，唯一不同的是next[0]=lenB可以直接得到，求next[1]时，初始j（代替next[i-1]）为0。
【核心代码】

    lenA = strlen(A); lenB = strlen(B);

    next[] = lenB;

    int j = ;

    re2(i, , lenB) {

        while (j && B[i] != B[j]) j = next[j - ];

        if (B[i] == B[j]) j++;

        next[i] = j;

    }

    j = ;

    re(i, lenA) {

        while (j && A[i] != B[j]) j = next[j - ];

        if (A[i] == B[j]) j++;

        ex[i] = j;

    }

扩展KMP

给出模板串A和子串B，长度分别为lenA和lenB，要求在线性时间内，对于每个A[i]（0<=i< lenA)，求出A[i..lenA-1]与B的最长公共前缀长度，记为ex[i]（或者说，ex[i]为满足A[i..i+z-1]==B[0..z- 1]的最大的z值）。扩展KMP可以用来解决很多字符串问题，如求一个字符串的最长回文子串和最长重复子串。
【算法】
设next[i]为满足B[i..i+z-1]==B[0..z-1]的最大的z值（也就是B的自身匹配）。设目前next[0..lenB-1]与ex[0..i-1]均已求出，要用它们来求ex[i]的值。
设
p为目前A串中匹配到的最远位置，k为让其匹配到最远位置的值（或者说，k是在0<=i0<i的所有i0值中，使i0+ex[i0]-1的值
最大的一个，p为这个最大值，即k+ex[k]-1），显然，p之后的所有位都是未知的，也就是目前还无法知道A[p+1..lenA-1]中的任何一位
和B的任何一位是否相等。
根据ex的定义可得，A[k..p]==B[0..p-k]，因为i>k，所以又有
A[i..p]==B[i-k..p-k]，设L=next[i-k]，则根据next的定义有B[0..L-1]==B[i-k..i-k+L-1]。
考虑i-k+L-1与p-k的关系：
（1）i-k+L-1<p-k，即i+L<=p。这时，由
A[i..p]==B[i-k..p-k]可以得到A[i..i+L-1]==B[i-k..i-k+L-1]，又因为B[0..L-1]==B[i-
k..i-k+L-1]所以A[i..i+L-1]==B[0..L-1]，这就说明ex[i]>=L。又由于next的定义可得，A[i+L]必
然不等于B[L]（否则A[i..i+L]==B[0..L]，因为i+L<=p，所以A[i..i+L]==B[i-k..i-k+L]，这样
B[0..L]==B[i-k..i-k+L]，故next[i-k]的值应为L+1或更大），这样，可以直接得到ex[i]=L！
（2）i+k-
L+1>=p-k，即i+L>p。这时，首先可以知道A[i..p]和B[0..p-i]是相等的（因为A[i..p]==B[i-
k..p-k]，而i+k-L+1>=p-k，由B[0..L-1]==B[i-k..i-k+L-1]可得B[0..p-i]==B[i-
k..p-k]，即A[i..p]==B[0..p-i]），然后，对于A[p+1]和B[p-i+1]是否相等，目前是不知道的（因为前面已经说过，p
是目前A串中匹配到的最远位置，在p之后无法知道任何一位的匹配信息），因此，要从A[p+1]与B[p-i+1]开始往后继续匹配（设j为目前B的匹配
位置的下标，一开始j=p-i+1，每次比较A[i+j]与B[j]是否相等，直到不相等或者越界为止，此时的j值就是ex[i]的值）。在这种情况
下，p的值必然会得到延伸，因此更新k和p的值。
边界：ex[0]的值需要预先求出，然后将初始的k设为0，p设为ex[0]-1。
对于求next数组，也是“自身匹配”，类似KMP的方法处理即可。唯一的不同点也在边界上：可以直接知道next[0]=lenB，next[1]的值预先求出，然后初始k=1，p=ex[1]。

需
要严重注意的是，在上述的情况（2）中，本该从A[p+1]与B[p-i+1]开始匹配，但是，若p+1<i，也就是p-i+1<0（这种情
况是有可能发生的，当ex[i-1]=0，且前面的ex值都没有延伸到i及以后的时候）的话，需要将A、B的下标都加1（因为此时p必然等于i-2，如果
A、B的下标用两个变量x、y控制的话，x和y都要加1）！！

【核心代码】

lenA = strlen(A); lenB = strlen(B);

    next[] = lenB; next[] = lenB - ;

    re(i, lenB-) if (B[i] != B[i + ]) {next[] = i; break;}

    int j, k = , p, L;

    re2(i, , lenB) {

        p = k + next[k] - ; L = next[i - k];

        if (i + L <= p) next[i] = L; else {

            j = p - i + ;

            if (j < ) j = ;

            while (i + j < lenB && B[i + j] == B[j]) j++;

            next[i] = j; k = i;

        }

    }

    int minlen = lenA <= lenB ? lenA : lenB; ex[] = minlen;

    re(i, minlen) if (A[i] != B[i]) {ex[] = i; break;}

    k = ;

    re2(i, , lenA) {

        p = k + ex[k] - ; L = next[i - k];

        if (i + L <= p) ex[i] = L; else {

            j = p - i + ;

            if (j < ) j = ;

            while (i + j < lenA && j < lenB && A[i + j] == B[j]) j++;

            ex[i] = j; k = i;

        }

    }

【时间复杂度分析】
在KMP和扩展KMP中，不管是A串还是B串，其匹配位置都是单调递增的，故总时间复杂度是线性的，都为O(lenA + lenB)（只是扩展KMP比KMP的常数更大一些）。
【应用】
KMP和扩展KMP在解决字符串问题中有大用。很多看上去很猥琐的字符串问题，都可以归结到这两种算法之中。另外，这里的“字符串”可以延伸为一切类型的数组，而不仅仅是字符数组。

KMP和扩展KMP【转】的更多相关文章

KMP与扩展KMP
原文转自:http://www.cppblog.com/MatoNo1/archive/2011/04/17/144390.aspx KMP:给出两个字符串A(称为模板串)和B(称为子串),长度分别为 ...
Manacher模板，kmp，扩展kmp，最小表示法模板
*N]; //储存临时串 *N];//中间记录 int Manacher(char tmp[]) { int len=strlen(tmp); ; ;i<len;i++) { s[cnt++]= ...
KMP && Manacher && 扩展KMP整理
KMP算法: kmp示例代码: void cal_next(char *str, int *next, int len) { next[0] = -1;//next[0]初始化为-1,-1表示不存在相 ...
KMP和扩展KMP
文章网上太多这里提一下代码细节: KMP: scanf("%s\n",s); scanf("%s\n",t); int ls=strlen(s),lt=strl ...
kmp模板 && 扩展kmp模板
kmp模板: #include <bits/stdc++.h> #define PB push_back #define MP make_pair using namespace std; ...
【kmp或扩展kmp】HDU 6153 A Secret
acm.hdu.edu.cn/showproblem.php?pid=6153 [题意] 给定字符串A和B,求B的所有后缀在A中出现次数与其长度的乘积之和 A和B的长度最大为1e6 方法一:扩展kmp ...
KMP 、扩展KMP、Manacher算法总结
一. KMP 1 找字符串x是否存在于y串中,或者存在了几次 HDU1711 Number Sequence HDU1686 Oulipo HDU2087 剪花布条 2.求多个字符串的最长公共子串 P ...
666 专题三 KMP & 扩展KMP & Manacher
KMP: Problem A.Number Sequence d.求子串首次出现在主串中的位置 s. c. #include<iostream> #include<stdio.h&g ...
kmp与扩展kmp模板
kmp 1 #include <algorithm> 2 #include <iostream> 3 #include <cstring> 4 #include & ...

随机推荐

YII 小部件 yii小部件查看方法小物件做的表单
要使用小部件,可以先到总文件去找 framework/yiilite文件里面搜索“CAtiveForm” (如果觉得小部件的radio布局有点难看,可以在外面定义,具体可以在控制器里面定义) 如下 ...
我和Cpp的第一次正式约会
今天是我和Cpp的第一次正式的约会,大一的时候学校开了Cpp课,可是那时候玩性未收,没有好好学习,而如今我主动约Cpp,是真的想跟他进一步走下去^_^,正在学习<C++ Primer>,每 ...
[BZOJ 1801] [Ahoi2009]chess 中国象棋【DP】
题目链接:BZOJ - 1801 题目分析对于50%的数据是可以直接状压 DP 的. 对于100%的数据,使用递推的 DP .(或者这只叫递推不叫 DP ?) 可以发现,每一行和每一列的棋子个数不能 ...
Why GEMM is at the heart of deep learning
Why GEMM is at the heart of deep learning I spend most of my time worrying about how to make deep le ...
Jersey Politics
poj2454:http://poj.org/problem?id=2454 题意:给你3*k个数,然后让你分成三堆,使得至少其中的两堆中的数字之和大于500*k.题解:这道题一开始我并不知道怎么做, ...
Borg Maze
poj3026:http://poj.org/problem?id=3026 题意:在一个y行 x列的迷宫中,有可行走的通路空格’ ‘,不可行走的墙’#’,还有两种英文字母A和S,现在从S出发,要求用 ...
Cognos请求流程——<转>
访问Cognos8 匿名访问用户通过浏览器发起Cognos访问请求,请求被送至Cognos Gateway Gateway接收请求并发送给一个dispatcher dispatcher发现请求没有附 ...
这十大MCU厂商瓜分着中国市场
MCU(Micro Control Unit)中文名称为微控制单元,又称单片微型计算机(Single Chip Microcomputer)或者单片机,是指随着大规模集成电路的出现及其发展,将计算机的 ...
.net线程入门1-进程
什么是进程当用户启动了一个程序,这个程序会加载内存和一大堆的资源,这些内存和资源在物理上的分区就是一个进程.一个应用程序也许不仅仅包含一个进程,了解程序和进程不是同一回事是非常重要的. 你可以通过任 ...
《深入Linux内核》 UNIX的一些故事
Unix文件的类型1.普通文件2.目录3.符号链接4.面向块的设备文件5.面向字符的设备文件6.管道和命名管道7.套接字点评:不明觉厉打开文件进程只能访问“打开的”文件.为了打开一个文件,进程调用 ...

KMP和扩展KMP【转】

KMP

扩展KMP

KMP和扩展KMP【转】的更多相关文章

随机推荐

热门专题