KMP算法模式匹配
转载请注明出处
http://blog.csdn.net/pony_maggie/article/details/37832707
作者:小马
在一个长串中查找一个子串是较经常使用的操作。各种信息检索系统,文字处理系统都少不了。本文介绍一个很著名的KMP模式匹配算法用于子串查找。
先抛开KMP。正常情况一下我们会怎样设计这个逻辑。一个主串S, 要在里面查找一个子串T,假设找到了返回T在S中開始的位置,否则返回-1。应该不难。须要一个辅助函数,从一个串口的指定位置。取出指定长度的子串。思想是这样:
在主串S中从開始位置。取长度和T相等的子串比罗,若相等,返回该位置的索引值。否则位置添加1, 继续上面的过程。
代码非常easy。例如以下:
//普通方法查找子串
//在主串s中查找t, 若找到匹配,返回索引位置(从0到len-1)
//否则返回-1
int IndexOfString(char* srcString, char* keyString)
{
int nSrcLen = 0;
int nKeyString = 0;
int i = 0;
char szTemp[1024] = {0};//如果足够大 if ((srcString == NULL) || (keyString == NULL))
{
return -1;
} nSrcLen = strlen(srcString);
nKeyString = strlen(keyString);
if (nKeyString > nSrcLen)
{
return -1;
} while(i < (nSrcLen-nKeyString))
{
memset(szTemp, 0x00, sizeof(szTemp));
SubString(srcString, szTemp, i, nKeyString);
if (memcmp(szTemp, keyString, nKeyString) != 0)
{
i++;
}
else return i;
} return -1;
}
再进一步,把辅助函数去掉,通过频繁操作下标也相同能够实现,思想跟上面查不多。仅仅只是换成一个个字符比較。代码例如以下:
int IndexOfString1(char* srcString, char* keyString)
{
int nSrcLen = 0;
int nKeyLen = 0;
int i = 0;
int j = 0;
char szTemp[1024] = {0};//如果足够大 if ((srcString == NULL) || (keyString == NULL))
{
return -1;
} nSrcLen = strlen(srcString);
nKeyLen = strlen(keyString);
if (nKeyLen > nSrcLen)
{
return -1;
} while((i < nSrcLen) && (j <nKeyLen))
{
if (srcString[i] == keyString[j])
{
i++;
j++;
}
else
{
i = i - j + 1;//主串回退到下一个位置
j = 0; //子串又一次開始
}
} if (j >= nKeyLen)
{
return (i - nKeyLen);//找到
} return -1;
}
分析一下上面算法的时间复杂度(两个算法事实上是一样的)。
举个样例,主串是:
“A STRING SEARCHING EXAMPLE CONSISTINGOF
SIMPLE TEXT”
子串是
“STING”
用上面的算法,会发现除了上面标记红色的字符比較了两次。其他都是比較一次,假设主串的长度是m, 子串的长度是n, 时间复杂度基本是O(m+n)。好像不错,效率挺高。再来看一个。主串是:
“000000000000000000000000000000000000000000000000000000000001”
子串是
“00000001”
在脑海里想像一下这个过程,非常easy得出它的时间复杂度是O(m*n)。所以这样的类似穷举的查找子串算法,时间复杂度与主串和子串的内容有非常大关系,复杂度不固定。并且像上面那样的01串在计算机处理中还比較常见,所以须要更好的算法。
KMP(三个发明人的名字首字母)算法能够保证不论哪种情况都能够在O(m+n)的时间复杂度内完毕匹配。它改进的地方是当出现比較不等时,主串中位置不回退,而是利用已经匹配的结果,将子串向右滑动尽可能远的距离后。再继续比較,看个样例:
在第三趟匹配中,当i=12, j=7时。字符不相等,这时不用回退到i=7,j=1又一次比較。而是i不变,j变成next[j]的值即可了。上图中是3, 也就是图中第四趟的比較位置。
这个确实非常强大。如今要解决的问题是next[j]怎样计算。事实上这个推导也不难。非常多算法的书上都有具体的过程,我这里就不赘述了。仅仅把结果给出来:
1 当j = 0时。next[j] =-1。
2 当j =1时。next[j] = 0。
3 满足1 < k < j,且p[0…k-1] =p[j-k…j-1]的最大的k, next[j] = k。
4 其他情况,next[j] = 0。
依据上面的逻辑。非常easy写出一个计算next的函数,例如以下:
static void getNext(char* strSub)
{
int j, k, temp;
int nLen = 0;
j = k = temp = 0;
nLen = strlen(strSub); memset(g_next, 0x00, sizeof(g_next));//每次进来都清空 for (j = 0; j < nLen; j++)
{
if (j == 0)
{
g_next[j] = -1;
}
else if (j == 1)
{
g_next[j] = 0;
}
else //取集合不为空时的最大值
{
temp = j - 1;
for (k = temp; k > 0; k--)
{
if (isEqual(strSub, j, k))
{
g_next[j] = k;
break;
}
}
if (k == 0)//集合为空
{
g_next[j] = 0;
}
}
} }
得到next之后。整个步骤例如以下: 以指针i和j分别表示主串和子串中正在比較的字符。若Si = Pj, 则i和j都增1,继续下一个字符的比較。
否则i不变,j退到next[j]的位置再比較,若相等,再各自增1。否则j再退到next[j]。循环进行。假设中间遇到next[j]为-1的情况。此时主串要增1。子串j变为0,表示要从主串的下一个位置又一次開始比較。
把上面的过程转化为代码:
//KMP算法查找子串
//在主串s中查找t, 若找到匹配,返回索引位置(从0到len-1)
//否则返回-1
int IndexOfStringKMP(char* srcString, char* keyString)
{
int i = 0;
int j = 0;
int nSrcLen = 0;
int nKeyLen = 0; if ((srcString == NULL) || (keyString == NULL))
{
return -1;
} nSrcLen = strlen(srcString);
nKeyLen = strlen(keyString);
if (nKeyLen > nSrcLen)
{
return -1;
} getNext(keyString);//先计算next值 while ((i < nSrcLen) && (j < nKeyLen))
{
if ((srcString[i] == keyString[j]) || (j == -1))
{
i++;
j++;
}
else
{
j = g_next[j];
}
}
if (j >= nKeyLen)
{
return (i - nKeyLen);//找到
} return -1;
}
代码下载地址:
http://download.csdn.net/detail/pony_maggie/7630329
或
https://github.com/pony-maggie/StringIndex
KMP算法模式匹配的更多相关文章
- 字符串模式匹配之KMP算法图解与 next 数组原理和实现方案
之前说到,朴素的匹配,每趟比较,都要回溯主串的指针,费事.则 KMP 就是对朴素匹配的一种改进.正好复习一下. KMP 算法其改进思想在于: 每当一趟匹配过程中出现字符比较不相等时,不需要回溯主串的 ...
- 【模式匹配】KMP算法的来龙去脉
1. 引言 字符串匹配是极为常见的一种模式匹配.简单地说,就是判断主串\(T\)中是否出现该模式串\(P\),即\(P\)为\(T\)的子串.特别地,定义主串为\(T[0 \dots n-1]\),模 ...
- 字符串模式匹配KMP算法
一篇不错的博客:http://www.cnblogs.com/dolphin0520/archive/2011/08/24/2151846.html KMP字符串模式匹配通俗点说就是一种在一个字符串中 ...
- 串的模式匹配和KMP算法
在对字符串的操作中,我们经常要用到子串的查找功能,我们称子串为模式串,模式串在主串中的查找过程我们成为模式匹配,KMP算法就是一个高效的模式匹配算法.KMP算法是蛮力算法的一种改进,下面我们先来介绍蛮 ...
- 利用KMP算法解决串的模式匹配问题(c++) -- 数据结构
题目: 7-1 串的模式匹配 (30 分) 给定一个主串S(长度<=10^6)和一个模式T(长度<=10^5),要求在主串S中找出与模式T相匹配的子串,返回相匹配的子串中的第一个字符在主串 ...
- (原创)数据结构之利用KMP算法解决串的模式匹配问题
给定一个主串S(长度<=10^6)和一个模式T(长度<=10^5),要求在主串S中找出与模式T相匹配的子串,返回相匹配的子串中的第一个字符在主串S中出现的位置. 输入格式: 输入有两行 ...
- 字符串模式匹配——KMP算法
KMP算法匹配字符串 朴素匹配算法 字符串的模式匹配的方法刚开始是朴素匹配算法,也就是经常说的暴力匹配,说白了就是用子串去和父串一个一个匹配,从父串的第一个字符开始匹配,如果匹配到某一个失配了,就 ...
- 串的两种模式匹配方式(BF/KMP算法)
前言 串,又称作字符串,它是由0个或者多个字符所组成的有限序列,串同样可以采用顺序存储和链式存储两种方式进行存储,在主串中查找定位子串问题(模式匹配)是串中最重要的操作之一,而不同的算法实现有着不同的 ...
- 串的模式匹配,KMP算法
串的模式匹配 现考虑一个常用操作,在字符串s(我们称为主串)中的第pos开始处往后查找,看在主串s中有没有和子串p相匹配的的,如果有,则返回字串p第一次出现的位置. 暴力求解 int Index(ch ...
随机推荐
- NOJ——1669xor的难题(详细的树状数组扩展—异或求和)
[1669] xor的难题 时间限制: 1000 ms 内存限制: 65535 K 问题描述 最近Alex学长有个问题被困扰了很久,就是有同学给他n个数,然后给你m个查询,然后每个查询给你l和r(左下 ...
- HDU-3718 Similarity
题目只有26个字母,所以我们新建一个二分图,v[i][j]表示字母i对应字母j时能成功匹配的个数,给这个边矩阵v求个最大匹配就是答案. #include <cstdlib> #includ ...
- 通过设置chrome浏览器解决跨域问题,在本地进行开发工作
后端跨域权限无法打开,于是去网上找了下我这边能不能解决 现在的浏览器出于安全策略的限制,都是不允许跨域的,但是开发的时候经常需要一些别的域的接口,特别是一些接口不是自己能控制的时候,往往会造成开发困难 ...
- UVa11021 Tribles
概率 递推 每只麻球都是独立计算的. 可以递推,设f[i]表示一只麻球经过i天死光的概率,那么f[i]的k次方就是k只麻球经过i天死光的概率. 则f[i]=p[0]+p[1]*f[i-1]^1+p[2 ...
- C++11学习笔记(5) —— override and final (转)
原文转自 http://blog.csdn.net/fire_lord/article/details/8540592 1.简介 C++为我们提供了继承和虚函数的重写特性. 在派生类中,重写虚函数不强 ...
- codevs——2548 自然数积分解
2548 自然数积分解 时间限制: 1 s 空间限制: 32000 KB 题目等级 : 黄金 Gold 题解 题目描述 Description 把自然数N分解为若干个自然数之积,输出 ...
- linux环境设置export
一. shell显示与设置环境变量 1.export //echo $PATH 2.export | grep ROS 3.export ROS_IP=192.168.0.5(添加环境变量ROS_IP ...
- [功能集锦] 001 - java下载文件
@RequestMapping("/downloadxls.action") public void downloadxls(HttpServletRequest request, ...
- C# 获取COM对象 ProgId ClsId
https://social.msdn.microsoft.com/Forums/vstudio/en-US/fe262fdd-a93f-427e-8771-2c64e7ac3064/getting- ...
- extern “C”的使用
2016-12-11 22:40:48 VS编译的时候,可以指定编译为C代码或者C++代码.c/c++->高级.而当你新建一个cpp文件时,VS很有可能自动会把编译方式由C变成C++编译.然 ...