KMP 学习(复习)笔记

KMP(Knuth-Morris-Pratt)是算法竞赛中常用的字符串匹配算法之一,它可以有效地利用失配信息来使得匹配全过程中不回溯,从而在线性时间内完成匹配。

本文已有前置算法讲解(来自刘毅学长):Here

原理

设模式串 pattern"utqqutnu",目标串 target"utqlwutqqutnu",使用朴素算法进行匹配时("-" 表示匹配成功,"|" 表示在此字符失配):

utqqutlwutqqutnu
------|
utqqutnu

首先,将两串首部对齐,逐个字符匹配,可见在字符 'l' 处失配,按照朴素算法的思想,我们需要把模式串右移一个字符,然后再从模式串首部开始匹配,即:

utqqutlwutqqutnu
|
utqqutnu

这时发现从第一个字符起就不匹配,还要继续右移 ……

但是,似乎有一种更好的策略:我们可以直接把模式串的开头对齐目标串的 "ut" 处,就可以一次跳过几个字符,并且模式串无需回溯:

utqqutlwutqqutnu
--|
utqqutnu

而接下来这次失配后,本来需要将模式串与 't' 对齐,但事实上并不需要,将模式串直接与 'l' 对齐即可。

utqqutlwutqqutnu
|
utqqutnu

KMP 算法就是利用了失配后的部分匹配信息来选择模式串的移动方式,尽可能地避免无用的匹配。

失配信息的利用

通过上述例子我们可以观察到,如果部分匹配的串有对称的前后缀,则我们可以直接将模式串部分匹配串的前缀与目标串部分匹配串的后缀对齐,如:

utqqutlwutqqutnu
------|
utqqutnu

例子中的部分匹配串为 "utqqut",有对称的前后缀 "ut",则可以直接将目标串的第二个 "ut" 与模式串的第一个 "ut" 对齐。

再来看这个例子,模式串为 "ttitty",目标串为 "ttittitty"

ttittittypoi
-----|
ttitty

此时的部分匹配串为 "ttitt",它有两个对称的前后缀,分别是 "tt""t",我们会想,以 "t" 对齐,可以移动更长的距离,事实上呢?

ttittittypoi
-|
ttitty

在模式串第二个 't' 处失配后,继续匹配,最终结果是匹配失败。

然而,如果我们以 "tt" 对齐,则有:

ttittittypoi
------
ttitty

结果是匹配成功。

这个例子告诉我们,当部分匹配串有多个对称前后缀时,需要选择最长的,以保证匹配结果的正确。

失配信息的推导

事实上,KMP 算法利用的失配信息是与目标串无关的,它仅与模式串有关,我们可以用递推的方法在线性的时间内求出模式串的每个可能的部分匹配串(即所有前缀)前缀的失配信息。

我们定义 fail 数组是一个长度等于模式串长度的数组,它的第 i 个成员代表以模式串前 i 个字符作为部分匹配串时,部分匹配串的最长对称前后缀长度。

| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8
target| u | t | q | q | u | t | n | u
fail | 0 | 0 | 0 | 0 | 1 | 2 | 0 | 1

推导 fail[i] 的方法如下:

  1. 如果 fail[i - 1] 不为 0,且第 i 个字符与第 fail[i - 1] + 1 个字符相同,则 fail[i] 即为 fail[i - 1] + 1
  2. 如果 fail[i - 1] 为 0,且第 i 个字符与首个字符相同,则 fail[i] = 1,否则 fail[i] = 0
  3. 难点:如果 fail[i - 1] 不为 0,且第 i 个字符与第 fail[i - 1] + 1 个字符不同,则继续对比第 i 个字符与 fail[fail[i - 1]] + 1 个字符,一直向前找直到匹配或者找到了 0。

如模式串:agctagcagctagct

加粗的 'a' 与最后一个 't' 不匹配,此时向前找找到 "agctagc" 的最后一个 'c'对称位置的后一个字符,发现是 't',则找到前后的 "agct" 是一个对称的前后缀。

匹配

有了 fail 数组,匹配就简单多了,只要根据以下三种情况对应处理即可:

  1. 如果当前字符匹配,则继续匹配下一个字符;
  2. 如果当前在模式串的首字符处不匹配,则直接将模式串右移一个字符;
  3. 否则移动模式串,使模式串部分匹配串的前缀与目标串部分匹配串的后缀对齐。

完整代码(POJ 3461

更新于 2021年03月04日

#include <cstdio>
#include <cstring> const int MAXN = 1000000; inline int kmp(char *a, char *b) // 在 a 中寻找 b
{
// 求出字符串长度
int na = strlen(a + 1), nb = strlen(b + 1);
static int fail[MAXN + 1]; fail[1] = 0;
for (int i = 2; i <= nb; i++) {
// 取上一位置的 fail 位置之后的字符,判断是否和该位相同
int j = fail[i - 1];
// 不断地向前找 fail 位置,直到找到 0 位置或可以匹配当前字符
while (j != 0 && b[j + 1] != b[i]) j = fail[j]; // 如果能匹配,设置当前位置的 fail 位置
if (b[j + 1] == b[i])
fail[i] = j + 1;
else
fail[i] = 0; // 找不到匹配位置
} int res = 0; // 匹配次数
for (int i = 1, j = 0; i <= na; i++) {
// 取上一位置的 fail 位置之后的字符,判断是否和要匹配的字符相同
while (j != 0 && b[j + 1] != a[i]) j = fail[j]; // 这一位可以匹配上
if (b[j + 1] == a[i]) j++; // 匹配成功
if (j == nb) {
res++;
j = fail[j]; // 为了能匹配重叠串
// j = 0 // 如果不允许重叠匹配
}
} return res;
} int main() {
int T = 1;
for (scanf("%d", &T); T--;) {
static char a[MAXN + 2], b[MAXN + 2];
// 下标从 1 开始
scanf("%s %s", a + 1, b + 1);
printf("%d\n", kmp(b, a));
}
return 0;
}

KMP 复习笔记的更多相关文章

  1. Java基础复习笔记系列 九 网络编程

    Java基础复习笔记系列之 网络编程 学习资料参考: 1.http://www.icoolxue.com/ 2. 1.网络编程的基础概念. TCP/IP协议:Socket编程:IP地址. 中国和美国之 ...

  2. Java基础复习笔记系列 八 多线程编程

    Java基础复习笔记系列之 多线程编程 参考地址: http://blog.csdn.net/xuweilinjijis/article/details/8878649 今天的故事,让我们从上面这个图 ...

  3. Java基础复习笔记系列 七 IO操作

    Java基础复习笔记系列之 IO操作 我们说的出入,都是站在程序的角度来说的.FileInputStream是读入数据.?????? 1.流是什么东西? 这章的理解的关键是:形象思维.一个管道插入了一 ...

  4. Java基础复习笔记系列 五 常用类

    Java基础复习笔记系列之 常用类 1.String类介绍. 首先看类所属的包:java.lang.String类. 再看它的构造方法: 2. String s1 = “hello”: String ...

  5. Java基础复习笔记系列 四 数组

    Java基础复习笔记系列之 数组 1.数组初步介绍? Java中的数组是引用类型,不可以直接分配在栈上.不同于C(在Java中,除了基础数据类型外,所有的类型都是引用类型.) Java中的数组在申明时 ...

  6. Java基础复习笔记基本排序算法

    Java基础复习笔记基本排序算法 1. 排序 排序是一个历来都是很多算法家热衷的领域,到现在还有很多数学家兼计算机专家还在研究.而排序是计算机程序开发中常用的一种操作.为何需要排序呢.我们在所有的系统 ...

  7. Angular复习笔记7-路由(下)

    Angular复习笔记7-路由(下) 这是angular路由的第二篇,也是最后一篇.继续上一章的内容 路由跳转 Web应用中的页面跳转,指的是应用响应某个事件,从一个页面跳转到另一个页面的行为.对于使 ...

  8. Angular复习笔记7-路由(上)

    Angular复习笔记7-路由(上) 关于Angular路由的部分将分为上下两篇来介绍.这是第一篇. 概述 路由所要解决的核心问题是通过建立URL和页面的对应关系,使得不同的页面可以用不同的URL来表 ...

  9. Angular复习笔记6-依赖注入

    Angular复习笔记6-依赖注入 依赖注入(DependencyInjection)是Angular实现重要功能的一种设计模式.一个大型应用的开发通常会涉及很多组件和服务,这些组件和服务之间有着错综 ...

  10. Angular复习笔记5-指令

    Angular复习笔记5-指令 在Angular中,指令是一个重要的概念,它作用在特定的DOM元素上,可以扩展这个元素的功能,为元素增加新的行为.本质上,组件可以被理解为一种带有视图的指令.组件继承自 ...

随机推荐

  1. 如何使用Tampermonkey开发并使用一个浏览器脚本

    准备工作 简介 Tampermonkey 是一款强大的浏览器扩展,它允许您定制网页的行为,改变和优化网页的展示方式或者功能以满足个人需求.通过编写自定义脚本,您可以实现许多有趣的功能,从自动化任务到改 ...

  2. mysql数据库数据同步几种通用方法?

    MySQL数据库数据同步的几种通用方法包括以下几个方面: 一.基于主从同步 主从同步是 MySQL 数据库最为常见和基本的同步方式,即其中一台 MySQL 服务器作为主服务器(Master),另外一台 ...

  3. [NewStarCTF WEEK5] pwn-planet 详解

    这道题目更多是考pwner的逆向功底(虽然程序逻辑也不是非常复杂=_=) 老规矩,先checksec查看程序 保护全开 看一下main函数 __int64 __fastcall main(int a1 ...

  4. Winform 控件库 MaterialSkin.2 使用教程(鸿蒙字体版)

    ️MaterialSkin.2 控件库在之前的文章中已经介绍过了,就不啰嗦了 - > Winform 好看控件库推荐:MaterialSkin.2 ️官方库里使用的是 Google 的 Robo ...

  5. POJ1006、hdu1370

    思路:中国剩余定理.纯粹的用暴力求逆元. 1 #include<iostream> 2 #include<string.h> 3 #include<string> ...

  6. 看看 Asp.net core Webapi 项目如何优雅地使用分布式缓存

    前言 缓存是提升程序性能必不可少的方法,Asp.net core 支持多级缓存配置,主要有客户端缓存.服务器端缓存,内存缓存和分布式缓存等.其中客户端缓和服务器端缓存在使用上都有比较大的限制,而内存缓 ...

  7. Charles的奇巧淫技

    大家好,我是 dom 哥.今天讨论一下 Charles 的高级用法. Charles 是 mac 电脑的一个网络代理软件,也是我平时开发常用的一个工具,用过的都说好. 本文不是 Charles 的入门 ...

  8. java注释、变量、数据类型和运算符

    注释 单行注释:// 多行注释:/*开头,*/结尾 JavaDoc注释:/**开头,*/结尾 快捷键:ctrl + ? 变量 第一步:声明变量.即根据数据类型在内存分配空间. 第二步:赋值.即将数据的 ...

  9. JDK1.8下载 用阿里云盘

    JDK1.8下载 用阿里云盘 jdk-8u202-windows-x64.exe https://www.aliyundrive.com/s/jJhWUk17jMt 点击链接保存,或者复制本段内容,打 ...

  10. MyBatis高频面试题

    1.MyBatis中使用#和$书写占位符有什么区别? 2.Hibernate 与 Mybatis区别(MyBatis与Hibernate有什么不同). 3.持久层设计要考虑的问题有哪些? 4.你用过的 ...