串、KMP模式匹配算法
串是由0个或者多个字符组成的有限序列,又名叫字符串。
串的比较:
串的比较是通过组成串的字符之间的编码来进行的,而字符的编码指的是字符在对应字符集中的序号。
计算机中常用的ASCII编码,由8位二进制数表示一个字符,总共可以表示256个字符。
对于以英语为主的国家来说,ASCII已经足够使用,但对于其他语种的国家来说,显然是不够的。
所以出现了Unicode编码,使用16位二进制数来表示一个字符,这样总共可以表示2的16次方个字符,同时兼容ASCII编码。
所以在比较两个串是否相等时,必须是它们串的长度以及各个对应位置都相等时,才算相等。
如happen < hyppy, e的ASCII 码为101, 而y的AscII码为121,显然e < y。
串的存储结构:
串的存储结构有顺序存储和链式存储两种结构。
使用顺序存储则串的长度是不可更改的,在进行字符串拼接时往往需要生成一个新串。
使用链式存储,一个结点对应一个字符,会造成很大的空间浪费。
串的匹配算法:
我们常常在文章、网页中查找某个单词,这种字串的定位操作通常称作串的模式匹配。
普通模式匹配算法
在普通模式匹配算法,需要将主串的每一个字符作为字串开头,与要匹配的字符串进行匹配。
这个过程中,会对主串进行大循环,以每个字符开头做T的长度的小循环,直到匹配成功或全部遍历完成。
假设S主串长度为N,T字串字符长度为M,则整个算法时间复杂度为O((N-M+1)*M)。
public static int patternMatch4Simple(String sourceString, String targetString) {
checkParam(sourceString, targetString);
char[] sourceChars = sourceString.toCharArray();
char[] targetChars = targetString.toCharArray();
int index = -1;
int offset = sourceChars.length - targetChars.length;
boolean contains = true;
for (int i = 0; i <= offset; i++) {
for (int j = 0; j < targetChars.length; j++) {
if (sourceChars[i + j] != targetChars[j]) {
contains = false;
break;
}
}
if (contains) {
index = i;
break;
}
contains = true;
}
return index;
}
KMP模式匹配算法
在字串与主串存在许多"部分匹配"的情况下,简单模式匹配便会有许多不必要的重复匹配。如主串为S = 'ababcdefgh', 子串T = 'ababe'时。
KMP算法就是为了避免这些重复匹配而生的,按照KMP算法,在主串S上进行比较后,下标是不会回溯的,仅仅只是回溯子串T的下标。
通过对T回溯的设计,在主子串存在部分匹配的情况下,可以避免重复匹配。T回溯有一套自己的算法,T中每个字符都有自己的回溯坐标,
这个坐标取决于当前字符之前的串的前后缀的相似度。
假设主串长度为N,子串长度为M,算法仅需分别对其做一次循环,时间复杂度为O(N+M)。
public static int patternMatch4KMP(String sourceString, String targetString) {
// check param
checkParam(sourceString, targetString);
// init kmp array for
char[] targetChars = targetString.toCharArray();
int[] kmpArray = new int[targetChars.length];
for (int i = 0; i < targetChars.length; i++) {
if (i == 0) {
kmpArray[i] = 0;
} else if (i == 1) {
kmpArray[i] = 1;
} else {
int match = 0;
for (int j = 0; j < i - 1; j++) {
if (targetChars[j] != targetChars[i - 1 - j]) {
break;
}
match++;
}
kmpArray[i] = match + 1;
}
}
char[] sourceChars = sourceString.toCharArray();
int index = -1;
int sourceCharIndex = 0;
for (int j = 0; j <= targetChars.length;) {
if (j == targetChars.length) {
index = sourceCharIndex - j;
break;
}
if (sourceCharIndex == sourceChars.length) {
break;
}
if (targetChars[j] == sourceChars[sourceCharIndex]) {
sourceCharIndex++;
j++;
continue;
}
if (targetChars[j] != sourceChars[sourceCharIndex]) {
int kmp = kmpArray[j];
if (kmp == 0) {
sourceCharIndex++;
j = 0;
} else {
j = kmp - 1;
}
}
}
return index;
}
KMP 算法改进
经过更多的实践,我们发现KMP算法中,在某种情况下仍然存在重复的匹配操作。即子串下标回溯时,回溯坐标不对。
改进后的KMP算法,对回溯坐标点进行再度计算,减少了回溯时重复匹配。
public static int patternMatch4KMPEnhance(String sourceString, String targetString) {
// check param
checkParam(sourceString, targetString);
// init kmp array for
char[] targetChars = targetString.toCharArray();
int[] kmpArray = new int[targetChars.length];
int[] kmpEnhanceArray = new int[targetChars.length];
for (int i = 0; i < targetChars.length; i++) {
if (i == 0) {
kmpArray[i] = 0;
kmpEnhanceArray[i] = 0;
} else {
int match = 0;
for (int j = 0; j < i - 1; j++) {
if (targetChars[j] != targetChars[i - 1 - j]) {
break;
}
match++;
}
kmpArray[i] = match + 1;
if (targetChars[kmpArray[i] - 1] == targetChars[i]) {
kmpEnhanceArray[i] = kmpArray[kmpArray[i] - 1];
} else {
kmpEnhanceArray[i] = kmpArray[i];
}
}
}
char[] sourceChars = sourceString.toCharArray();
int index = -1;
int sourceCharIndex = 0;
for (int j = 0; j <= targetChars.length;) {
if (j == targetChars.length) {
index = sourceCharIndex - j;
break;
}
if (sourceCharIndex == sourceChars.length) {
break;
}
if (targetChars[j] == sourceChars[sourceCharIndex]) {
sourceCharIndex++;
j++;
continue;
}
if (targetChars[j] != sourceChars[sourceCharIndex]) {
int kmp = kmpEnhanceArray[j];
if (kmp == 0) {
sourceCharIndex++;
j = 0;
} else {
j = kmp - 1;
}
}
}
return index;
}
有关KMP数组坐标的数学公式与推导,参考大话数据结构。
串、KMP模式匹配算法的更多相关文章
- 数据结构(三)串---KMP模式匹配算法
(一)定义 由于BF模式匹配算法的低效(有太多不必要的回溯和匹配),于是某三个前辈发表了一个模式匹配算法,可以大大避免重复遍历的情况,称之为克努特-莫里斯-普拉特算法,简称KMP算法 (二)KMP算法 ...
- 数据结构(三)串---KMP模式匹配算法实现及优化
KMP算法实现 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include ...
- 数据结构(三)串---KMP模式匹配算法之获取next数组
(一)获取模式串T的next数组值 1.回顾 我们所知道的KMP算法next数组的作用 next[j]表示当前模式串T的j下标对目标串S的i值失配时,我们应该使用模式串的下标为next[j]接着去和目 ...
- 《数据结构》之串的模式匹配算法——KMP算法
//串的模式匹配算法 //KMP算法,时间复杂度为O(n+m) #include <iostream> #include <string> #include <cstri ...
- 数据结构- 串的模式匹配算法:BF和 KMP算法
数据结构- 串的模式匹配算法:BF和 KMP算法 Brute-Force算法的思想 1.BF(Brute-Force)算法 Brute-Force算法的基本思想是: 1) 从目标串s 的第一个字 ...
- 【算法】串的模式匹配算法(KMP)
串的模式匹配算法 问题: 求子串位置的定位函数如何写? int index(SString S,SString T,int pos); 给定串S,子串T,问T在 ...
- 串的模式匹配算法 ------ KMP算法
//KMP串的模式匹配算法 #include <stdio.h> #include <stdlib.h> #include <string.h> int* get_ ...
- 串、串的模式匹配算法(子串查找)BF算法、KMP算法
串的定长顺序存储#define MAXSTRLEN 255,//超出这个长度则超出部分被舍去,称为截断 串的模式匹配: 串的定义:0个或多个字符组成的有限序列S = 'a1a2a3…….an ' n ...
- 【Java】 大话数据结构(8) 串的模式匹配算法(朴素、KMP、改进算法)
本文根据<大话数据结构>一书,实现了Java版的串的朴素模式匹配算法.KMP模式匹配算法.KMP模式匹配算法的改进算法. 1.朴素的模式匹配算法 为主串和子串分别定义指针i,j. (1)当 ...
- [从今天开始修炼数据结构]串、KMP模式匹配算法
[从今天开始修炼数据结构]基本概念 [从今天开始修炼数据结构]线性表及其实现以及实现有Itertor的ArrayList和LinkedList [从今天开始修炼数据结构]栈.斐波那契数列.逆波兰四则运 ...
随机推荐
- .net core 支付宝,微信支付 三
支付回调: 获取HttpRequest的body内容,之前使用Request.Form有时候数据请求不到(可能是跟.net core 版本有关?) var s = HttpRequest.Body; ...
- 2020牛客NOIP赛前集训营-普及组(第二场) 题解
目录 T1 面试 描述 题目描述 输入描述: 输出描述: 题解 代码 T2 纸牌游戏 描述 题目描述 输入描述: 输出描述: 题解 代码 T3 涨薪 描述 题目描述 输入描述: 输出描述: 题解 代码 ...
- 通过css实现幻灯片效果
html: css: .box { border: 0px solid white; width: 1520px; height: 480px; margin: 0 auto; position: a ...
- Html:行级元素和块级元素标签列表
块级元素 div p h1-h6 form ul ol dl dt dd li table tr td th hr blockquote address table menu pre HTML5: h ...
- docker 搭建 redis 集群(哨兵模式)
文件结构 1. redis-sentinel 1-1. docker-compose.yml 1-2. sentinel 1-2-1 docker-compose.yml 1-2-2 sentinel ...
- Springboot:单元测试多模块项目不同模块组件不能@autowired问题
博主在写springboot单元测试的时候使用@Autowired失效,显示为null 下面是项目架构 api为接口模块,service为实现类模块,测试类写在service模块下. 这是测试类,使用 ...
- doc系统maven打包脚本
chcp 65001@echo off title 打包神器,龙爷造. echo ============================= echo 姓名:Long echo 日期:2020-08- ...
- ctf实验吧天网管理系统
这明显不可能登上的,所以直接看源代码 这里如果不懂得,php中处理哈希值的方式,是只要是0e开头的哈希值,都认为是0,通过输入一个这样的0e开头的字符串,会被php解释成0. 这个可以去在线工具上得到 ...
- WPF技巧:命中测试在视觉树中的使用
我们有时候又需求从当前视觉树中找一些东西,比如鼠标按下的时候,看看鼠标下的元素都有什么.又比如某块区域下有哪些元素?某个坐标点下有哪些元素? 这些需求在使用 命中测试的时候,可以非常方便和快速的去找到 ...
- WPF教程二:理解WPF的布局系统和常用的Panel布局
WPF的布局系统 了解元素的测量和排列方式是理解布局的第一步.在测量(measure)阶段容器遍历所有子元素,并询问子元素它们所期望的尺寸.在排列(arrange)阶段,容器在合适的位置放置子元素.理 ...