回顾:4种字符串匹配算法:BS朴素 Rabin-karp(上)

4种字符串匹配算法:有限自动机(中)

1、图解

  KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。我不喜欢叫他“看毛片”算法。但我不得不说,能联想到这个的人,确实很有才。

  原理如果文字理解起来非常复杂,而且有点难懂。因此,画图来讲解是最好的方式啦,下图非常容易理解算法的执行原理。

  我之前也是看了这幅图理解的。所以我觉得把这个图用来讲解最好不过(抱歉,我搬了这图,但是这个图是我至今觉得讲的最好的图,不得不搬),当然我已经全部重新画过。网络上KMP的讲解,讲的好的寥寥无几,发现一些博客,都是转载,或者讲的不够清楚,很难理解。我觉得有必要重新整理整理,自己来梳理一下知识点,为了让自己更理解深刻一些。

  首先模式串逐一对比文本串,如上图,直到遇到相同的元素,如下图:

  模式串,逐一对比,直到发现蓝色框框内的字符不相同,下图。这时候怎么办?

   BS算法,就是把模式串向前移动一位,从头继续比较,所以他的时间复杂度最差才是o(m*n)。而KMP呢,不再从头比较啦,这样大大减少了时间复杂度。我们即将引出next数组概念。

  既然,不保存,那他是怎么跳的呢?

  我们发现,ABCDAB,AB**AB, 这个字符串首尾相同,因此直接跳4格,如下图。

  也就是说,next数组保存的数和跳几格是有关系的呗。那我们怎么来看呢?这个字符串的匹配值有关。我们只要数,字符串首尾有几个是匹配的即可,通过这样来初始化。我们来看一下这个表格。

   A = 0  AB = 0  ABC = 0  ABCD = 0  ABCDA = 1  ABCDAB = 2  ABCDABD = 0

  公式:

移动位数 = 已匹配的字符数 - 表格内的匹配值

  我们继续看,即使跳转了4格,还是有蓝色的部分不匹配,又因为AB = 0 所以移动位数 = 已匹配的字符数(2) - 表格内的匹配值(0) = 2,依次类推,直到匹配到下图,则成功。

  该算法,最重要的是next数组上。理解这个,我们觉得其他就迎刃而解了。

2、代码实现

  主要代码(c++版):

 std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = 0;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} bool kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return true;
}
}
}

测试代码:

int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; bool iftrue = kmp_match(a, b);;
if (iftrue == true)
{
std::cout << "找到了" << std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
}

注:你也可以返回文本串的地址下标,稍加改动即可。

 int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
}

返回数据下标 稍加改动后的代码 点击打开

另外,从代码中可以看出,他的时间复杂度为o(n),预处理时间o(m)

资料:

特别感谢:阮一峰的网络日志

 #include <iostream>
#include <map>
#include <string>
#include <utility>
#include <stdlib.h> std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = ;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
} int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; int iftrue = kmp_match(a, b);;
if (iftrue >=)
{
std::cout << "找到了" << " "<< iftrue <<std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
system("pause");
}

完整代码

4种字符串匹配算法:KMP(下)的更多相关文章

  1. 4种字符串匹配算法:BS朴素 Rabin-karp(上)

    字符串的匹配的算法一直都是比较基础的算法,我们本科数据结构就学过了严蔚敏的KMP算法.KMP算法应该是最高效的一种算法,但是确实稍微有点难理解.所以打算,开这个博客,一步步的介绍4种匹配的算法.也是& ...

  2. 字符串匹配算法--KMP字符串搜索(Knuth–Morris–Pratt string-searching)C语言实现与讲解

    一.前言   在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个主文本字符串S内查找一个词W的出现位置.此算法通过运用对这个词在不匹配时本身就包含足够的信息 ...

  3. 字符串匹配算法 - KMP

    前几日在微博上看到一则微博是说面试的时候让面试者写一个很简单的字符串匹配都写不出来,于是我就自己去试了一把.结果写出来的是一个最简单粗暴的算法.这里重新学习了一下几个经典的字符串匹配算法,写篇文章以巩 ...

  4. 字符串匹配算法——KMP算法学习

    KMP算法是用来解决字符串的匹配问题的,即在字符串S中寻找字符串P.形式定义:假设存在长度为n的字符数组S[0...n-1],长度为m的字符数组P[0...m-1],是否存在i,使得SiSi+1... ...

  5. 字符串匹配算法KMP算法

    数据结构中讲到关于字符串匹配算法时,提到朴素匹配算法,和KMP匹配算法. 朴素匹配算法就是简单的一个一个匹配字符,如果遇到不匹配字符那么就在源字符串中迭代下一个位置一个一个的匹配,这样计算起来会有很多 ...

  6. 字符串匹配算法——KMP、BM、Sunday

    KMP算法 KMP算法主要包括两个过程,一个是针对子串生成相应的“索引表”,用来保存部分匹配值,第二个步骤是子串匹配. 部分匹配值是指字符串的“前缀”和“后缀”的最长的共有元素的长度.以“ABCDAB ...

  7. KMP Algorithm 字符串匹配算法KMP小结

    这篇小结主要是参考这篇帖子从头到尾彻底理解KMP,不得不佩服原作者,写的真是太详尽了,让博主产生了一种读学术论文的错觉.后来发现原作者是写书的,不由得更加敬佩了.博主不才,尝试着简化一些原帖子的内容, ...

  8. [Algorithm] 字符串匹配算法——KMP算法

    1 字符串匹配 字符串匹配是计算机的基本任务之一. 字符串匹配是什么?举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串& ...

  9. 字符串匹配算法——KMP算法

    处理字符串的过程中,难免会遇到字符匹配的问题.常用的字符匹配方法 1. 朴素模式匹配算法(Brute-Force算法) 求子串位置的定位函数Index( S, T, pos). 模式匹配:子串的定位操 ...

随机推荐

  1. 面向对象 ---Java抽象类

    在面向对象的概念中,所有的对象都是通过类来描绘的,但是反过来,并不是所有的类都是用来描绘对象的,如果一个类中没有包含足够的信息来描绘一个具体的对象,这样的类就是抽象类. 抽象类除了不能实例化对象之外, ...

  2. jQuery Ajax(load,post,get,ajax)用法与详解

    今天看到群里面有网友们问到Jquery Ajax的(load,post,get,ajax)之间的区别,现在整理了一篇文章出来,希望可以帮到网友们,首先我们先来看一些简单的方法, 这些方法都是对jQue ...

  3. Javascript中bind()方法的使用与实现

    对于bind,我愣了下,这个方法常用在jquery中,用于为被选元素添加一个或多个事件处理程序. 查了下手册,发现bind的作用和apply,call类似都是改变函数的execute context, ...

  4. eclipse和cygwin搭建C++环境的修正版本

    最近嫌弃切换系统麻烦.用了cygwin作为netbeans下C++的环境继续学习.我学的很渣,就不卖弄了. 网络上有很多这样的文章.经过对比和实验发现一个深坑.教程部分还是跟其他的一样,重点部分红字做 ...

  5. 解决GDB输出Qt内置类型的显示问题

    自从GDB 7.0之后,就加入了Pretty-Printer的这个概念.简单理解就是他可以让你用Python写一串脚本,然后让gdb去读取这串脚本后,可以自由的输出由你想自己定义的格式.我们直接举个简 ...

  6. Linux 信号量互斥编程

    所谓信号量,其实就是一个数字.内核给这个数字赋予一定的含义,让它等于不同的值时所表示的意义不同.这样就可以用它来标示某种资源是否正被使用.信号的分类其实挺多的,主要还是二值和计数器.这里讨论二值 现在 ...

  7. 网站开发常用jQuery插件总结(九)侧边栏插件pageslide

    一.pageslide插件功能 实现现实隐藏侧边栏的功能.插件可以读取另个一html,也可以是当前页面中的元素. 二.pageslide官方地址 http://srobbin.com/jquery-p ...

  8. 基础-函数3(IIFE立即执行函数)

    参考链接: http://benalman.com/news/2010/11/immediately-invoked-function-expression/#iife http://segmentf ...

  9. JavaScript学习总结【3】、JS对象

    在 JS 中一切皆对象,并提供了多个内置对象,比如:String.Array.Date 等,此外还支持自定义对象.对象只是一种特殊类型的数据,并拥有属性和方法,属性是与对象相关的值,方法是能够在对象上 ...

  10. javascript div跟随鼠标移动

    <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...