回顾:4种字符串匹配算法:BS朴素 Rabin-karp(上)

4种字符串匹配算法:有限自动机(中)

1、图解

  KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。我不喜欢叫他“看毛片”算法。但我不得不说,能联想到这个的人,确实很有才。

  原理如果文字理解起来非常复杂,而且有点难懂。因此,画图来讲解是最好的方式啦,下图非常容易理解算法的执行原理。

  我之前也是看了这幅图理解的。所以我觉得把这个图用来讲解最好不过(抱歉,我搬了这图,但是这个图是我至今觉得讲的最好的图,不得不搬),当然我已经全部重新画过。网络上KMP的讲解,讲的好的寥寥无几,发现一些博客,都是转载,或者讲的不够清楚,很难理解。我觉得有必要重新整理整理,自己来梳理一下知识点,为了让自己更理解深刻一些。

  首先模式串逐一对比文本串,如上图,直到遇到相同的元素,如下图:

  模式串,逐一对比,直到发现蓝色框框内的字符不相同,下图。这时候怎么办?

   BS算法,就是把模式串向前移动一位,从头继续比较,所以他的时间复杂度最差才是o(m*n)。而KMP呢,不再从头比较啦,这样大大减少了时间复杂度。我们即将引出next数组概念。

  既然,不保存,那他是怎么跳的呢?

  我们发现,ABCDAB,AB**AB, 这个字符串首尾相同,因此直接跳4格,如下图。

  也就是说,next数组保存的数和跳几格是有关系的呗。那我们怎么来看呢?这个字符串的匹配值有关。我们只要数,字符串首尾有几个是匹配的即可,通过这样来初始化。我们来看一下这个表格。

   A = 0  AB = 0  ABC = 0  ABCD = 0  ABCDA = 1  ABCDAB = 2  ABCDABD = 0

  公式:

移动位数 = 已匹配的字符数 - 表格内的匹配值

  我们继续看,即使跳转了4格,还是有蓝色的部分不匹配,又因为AB = 0 所以移动位数 = 已匹配的字符数(2) - 表格内的匹配值(0) = 2,依次类推,直到匹配到下图,则成功。

  该算法,最重要的是next数组上。理解这个,我们觉得其他就迎刃而解了。

2、代码实现

  主要代码(c++版):

 std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = 0;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} bool kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return true;
}
}
}

测试代码:

int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; bool iftrue = kmp_match(a, b);;
if (iftrue == true)
{
std::cout << "找到了" << std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
}

注:你也可以返回文本串的地址下标,稍加改动即可。

 int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
}

返回数据下标 稍加改动后的代码 点击打开

另外,从代码中可以看出,他的时间复杂度为o(n),预处理时间o(m)

资料:

特别感谢:阮一峰的网络日志

 #include <iostream>
#include <map>
#include <string>
#include <utility>
#include <stdlib.h> std::map<int,int> compute_prefix(const std::string &pattern)
{
int i = ;
int p = ;
std::map<int, int> pi;
int length = pattern.length();
pi.insert(std::make_pair(, ));
while (i < length)
{
if (p > && pattern[i] != pattern[p])
{
p = ;
}
if (pattern[i] == pattern[p])
{
++p;
}
pi.insert(std::make_pair(i + , p));
i++;
}
return pi;
} int kmp_match(const std::string &text,const std::string &pattern)
{
std::map<int, int> pos;
pos = compute_prefix(pattern);
int q = ;
for (int i = ; i < text.length(); i++)
{
if (q > && text[i] != pattern[q])
{
q = pos.at(q);
}
if (text[i] == pattern[q])
{
q++;
}
if (q == pattern.length())
{
return (i+)-q+;
}
}
return -;
} int main()
{
char a[] = "bbc abcdab abcdabcdabde";
char b[] = "abcdabd"; int iftrue = kmp_match(a, b);;
if (iftrue >=)
{
std::cout << "找到了" << " "<< iftrue <<std::endl;
}
else
{
std::cout << "没有" << std::endl;
}
system("pause");
}

完整代码

4种字符串匹配算法:KMP(下)的更多相关文章

  1. 4种字符串匹配算法:BS朴素 Rabin-karp(上)

    字符串的匹配的算法一直都是比较基础的算法,我们本科数据结构就学过了严蔚敏的KMP算法.KMP算法应该是最高效的一种算法,但是确实稍微有点难理解.所以打算,开这个博客,一步步的介绍4种匹配的算法.也是& ...

  2. 字符串匹配算法--KMP字符串搜索(Knuth–Morris–Pratt string-searching)C语言实现与讲解

    一.前言   在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个主文本字符串S内查找一个词W的出现位置.此算法通过运用对这个词在不匹配时本身就包含足够的信息 ...

  3. 字符串匹配算法 - KMP

    前几日在微博上看到一则微博是说面试的时候让面试者写一个很简单的字符串匹配都写不出来,于是我就自己去试了一把.结果写出来的是一个最简单粗暴的算法.这里重新学习了一下几个经典的字符串匹配算法,写篇文章以巩 ...

  4. 字符串匹配算法——KMP算法学习

    KMP算法是用来解决字符串的匹配问题的,即在字符串S中寻找字符串P.形式定义:假设存在长度为n的字符数组S[0...n-1],长度为m的字符数组P[0...m-1],是否存在i,使得SiSi+1... ...

  5. 字符串匹配算法KMP算法

    数据结构中讲到关于字符串匹配算法时,提到朴素匹配算法,和KMP匹配算法. 朴素匹配算法就是简单的一个一个匹配字符,如果遇到不匹配字符那么就在源字符串中迭代下一个位置一个一个的匹配,这样计算起来会有很多 ...

  6. 字符串匹配算法——KMP、BM、Sunday

    KMP算法 KMP算法主要包括两个过程,一个是针对子串生成相应的“索引表”,用来保存部分匹配值,第二个步骤是子串匹配. 部分匹配值是指字符串的“前缀”和“后缀”的最长的共有元素的长度.以“ABCDAB ...

  7. KMP Algorithm 字符串匹配算法KMP小结

    这篇小结主要是参考这篇帖子从头到尾彻底理解KMP,不得不佩服原作者,写的真是太详尽了,让博主产生了一种读学术论文的错觉.后来发现原作者是写书的,不由得更加敬佩了.博主不才,尝试着简化一些原帖子的内容, ...

  8. [Algorithm] 字符串匹配算法——KMP算法

    1 字符串匹配 字符串匹配是计算机的基本任务之一. 字符串匹配是什么?举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串& ...

  9. 字符串匹配算法——KMP算法

    处理字符串的过程中,难免会遇到字符匹配的问题.常用的字符匹配方法 1. 朴素模式匹配算法(Brute-Force算法) 求子串位置的定位函数Index( S, T, pos). 模式匹配:子串的定位操 ...

随机推荐

  1. JS 頁面實時更新時間

    function startTime() { var today = new Date(); //定义日期对象 var yyyy = today.getFullYear(); //通过日期对象的get ...

  2. CI 笔记 数据库

    demo: 1.  建立数据库,driver, 字段 name,telphone,idcard,car,content 2. 建立model,Driver_model.php文件, 建立add方法, ...

  3. Java中I/O的分析

    Java中I/O的原理: 在java程序中,对于数据的输入/输出操作以”流“的方式进行的. 流是内存中一组有序数据序列 Java将数据从源读入到内存当中,形成了流,然后这些流可以写到目的地. Java ...

  4. C++自定义异常处理

    自定义异常类 class MyException { public: MyException() { } MyException(char* str) { msg = str; } MyExcepti ...

  5. 冒泡排序(C++)

    冒泡排序(C++) 冒泡排序(C++): 原理是临近的数字两两进行比较,按照从小到大或者从大到小的顺序进行交换, 这样一趟过去后,最大或最小的数字被交换到了最后一位, 然后再从头开始进行两两比较交换, ...

  6. 总结javascript继承的两种方式的N中写法

    最近翻看博客园,总结了一下javascript的继承方式:prototype和copy继承方式. 一.prototype方式 当一个函数被创建时,Function构造函数产生的函数会隐式的被赋予一个p ...

  7. Java学习----字符串函数

    1.String string类是最终类,不可以有子类 package com.demo.pkg1; public class TestString { public static void main ...

  8. phpcms安装完成后总是跳转到install/install.php

       很多人在本地安装phpcms后总是跳转到install/install.php.由于很多人是第一次使用phpcms,不知道为何会出现这个错误.出现这个大都是phpcms的缓存所致. 如何解决ph ...

  9. 4537: [Hnoi2016]最小公倍数

    Description 给定一张N个顶点M条边的无向图(顶点编号为1,2,…,n),每条边上带有权值.所有权值都可以分解成2^a*3^b的形式.现在有q个询问,每次询问给定四个参数u.v.a和b,请你 ...

  10. 如何用OS X的Xcode写C语言程序

    声明:以下内容非本人原创,转载于别处.拿出来只是分享给FY们,不喜勿喷!原创地址http://blog.yorkxin.org/posts/2009/03/15/fundamental-c-with- ...