最近由于某些原因,又回顾了一次KMP算法。上一次回顾KMP算法还是在刷题的时候遇到的:

http://blog.csdn.net/dacc123/article/details/50994611

在我的记忆力,每次回顾KMP算法都会有新的理解,以为自己理解的很透彻了,等过一段时间再去回顾,又要花一些时间去弄门清。这次也一样。

刚接触Next数组的时候我很反感字符串前缀和后缀的最长公共子串的长度来解释next数组,我认为next数组就是一个字符串的对称程度。在这样的理解之下,计算next数组的理解就是:

在求解next数组的时候,若前面一个next数,为0,那么说明前面没有对称的,新加的字符如果要对称只可能和第一个字符开始比较。如果next数不为0,说明前面一个字符是有和它对称的,那么去找和他对称的字符的下一个字符,如果相等那么next值就++,如果不相等只能等于0了。

从今天看来,这个对称理解显然是错误的,很容把误导到回文串里面的前后对称。KMP算法其实很简单,就从前缀和后缀去理解他,这也是他算法的核心思想。

下面举个例子:

第一次匹配:从第0位开始,匹配到第7位都是相同的,最后一位发现不一样了就是第8位

0   1    2   3   4   5    6   7   8

a   b   c    x   y    a   b   c   x   y   a -------------目标字符串

a   b   c    x   y    a   b   c   1     -----------------模式字符串

接下来:

如果是暴力的话,应该是模式字符串向前移动一位,进行比较,发现第一位有不匹配的继续移动。

0   1    2   3   4   5    6   7   8

a   b   c    x   y    a   b   c   x   y  a -------------目标字符串

     a   b   c    x    y   a   b   c   1     -----------------模式字符串

假设暴力移动了x位,终于有可能匹配了,这里是有可能。那么情况一定是这样:

0   1    2   3   4   5    6   7   8

a   b   c    x   y    a   b   c   x   y   a -------------目标字符串

                         a   b   c   x   y   a   b   c   1     -----------------模式字符串

模式字符串的a , b ,c和目标的5,6,7位是相同的,(我们不看第8位以及后面的只看0~7)。这样才有可能匹配(前面移动的都是从第一位就pass掉了)。

那么回到第一步:

0   1    2   3   4   5    6   7   8

a   b   c    x   y    a   b   c   x   y   a -------------目标字符串

a   b   c    x   y    a   b   c   1     -----------------模式字符串

在发现第8位不匹配的时候,我们之前暴力推算过,向前移动5位,才有可能匹配。(只看0~7位)前7位都是相同的,我们可以找到规律,为什么移动5位才有可能匹配:

a   b   c   x   y   a   b  c

a   b  c   x    y   a   b  c

可以看这就是一个字符串的前缀=后缀的情况,不是吗?也就是说,只有当前缀等于后缀存在的情况下,你往后移才有可能匹配(在0~7之内有匹配的)。在发现第8位不匹配的情况下,我们利用next数组,直接找到前缀=后缀的那部分,直接移动过去,这样省了很多步暴力。如果发现前缀=后缀的情况不存在,那么好办,直接跳过0~7位,因为前缀=后缀不存在,你在0~7位之间怎么移动都不可能匹配。

接下来就是利用前缀与后缀求next数组的方法,很容易理解。

比如 s: a   b    a   b

next[i]  表示的是从第0~i位的字符串,前缀和后缀的最大公共子串的长度。求解next[i] 其实只有两种情况,一种是next[i-1]也就是0~i-1的子串存在前后缀最大公共子串,例如a  b  a  b 现在求解最后一位b也就是next[3],可以看next[2]=1 因为a b a的公共前后缀是a长度是1,s[0]=s[2]="a" 。 那么如果s[1]=s[3]的话,公共前后缀岂不是要加1,于是b就去找s[2]匹配的前缀就是s[1],找他的下一位s[1],果然和自己相等,于是在next[2]的基础上加1.。还要一种就是前面的next[i-1]没有前后缀公共子串,那么看来只有从自己开始开辟了,忽视果断和第一位比较,如果相等,那么从i开始就有了前后缀公共子串,长度为1.

这里还要提一点,next[i] 还表示和s[i]相等的前缀s[j]的下标j,s[j]是前缀的最后一个字符,s[i]是后缀的最后一个字符。s[i]=s[j] ,j的值既是下标(从0开始的要加 1)也是长度。

next[0]   a   只有一个字符串,最大公共子串长度为0

next[1]   a b   由于next[0]=0,说明前面的子串没有前后缀相等的情况,只能从自己开辟,发现s[0]和自己不一样,于是只能next[1]=0

next[2]  a b a   next[1]=0,同样的从自己开辟,发现s[0]和自己一样,终于有戏,于是next[2]=1

next[3]  a b a b    next[2]=1 ,前面有匹配的,于是找到next[2]匹配的那个字符串下表也就是next[2]的值,是1(我这里是下标从0开始)于是找s[0]的下一位s[1]发现和自己一样,很完美,在next[2]的基础上加1。如果不一样呢,那么很认命,自己破坏了前后缀公共子串,只能是0.

至于代码什么的就不贴了,明白了原理,写代码是信手拈来的事情,对吧!

温故KMP算法的更多相关文章

  1. 简单有效的kmp算法

    以前看过kmp算法,当时接触后总感觉好深奥啊,抱着数据结构的数啃了一中午,最终才大致看懂,后来提起kmp也只剩下“奥,它是做模式匹配的”这点干货.最近有空,翻出来算法导论看看,原来就是这么简单(先不说 ...

  2. KMP算法

    KMP算法是字符串模式匹配当中最经典的算法,原来大二学数据结构的有讲,但是当时只是记住了原理,但不知道代码实现,今天终于是完成了KMP的代码实现.原理KMP的原理其实很简单,给定一个字符串和一个模式串 ...

  3. 萌新笔记——用KMP算法与Trie字典树实现屏蔽敏感词(UTF-8编码)

    前几天写好了字典,又刚好重温了KMP算法,恰逢遇到朋友吐槽最近被和谐的词越来越多了,于是突发奇想,想要自己实现一下敏感词屏蔽. 基本敏感词的屏蔽说起来很简单,只要把字符串中的敏感词替换成"* ...

  4. KMP算法实现

    链接:http://blog.csdn.net/joylnwang/article/details/6778316 KMP算法是一种很经典的字符串匹配算法,链接中的讲解已经是很明确得了,自己按照其讲解 ...

  5. 数据结构与算法JavaScript (五) 串(经典KMP算法)

    KMP算法和BM算法 KMP是前缀匹配和BM后缀匹配的经典算法,看得出来前缀匹配和后缀匹配的区别就仅仅在于比较的顺序不同 前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从 左到右 后缀匹配 ...

  6. 扩展KMP算法

    一 问题定义 给定母串S和子串T,定义n为母串S的长度,m为子串T的长度,suffix[i]为第i个字符开始的母串S的后缀子串,extend[i]为suffix[i]与字串T的最长公共前缀长度.求出所 ...

  7. 字符串模式匹配之KMP算法图解与 next 数组原理和实现方案

    之前说到,朴素的匹配,每趟比较,都要回溯主串的指针,费事.则 KMP 就是对朴素匹配的一种改进.正好复习一下. KMP 算法其改进思想在于: 每当一趟匹配过程中出现字符比较不相等时,不需要回溯主串的 ...

  8. 算法:KMP算法

    算法:KMP排序 算法分析 KMP算法是一种快速的模式匹配算法.KMP是三位大师:D.E.Knuth.J.H.Morris和V.R.Pratt同时发现的,所以取首字母组成KMP. 少部分图片来自孤~影 ...

  9. BF算法与KMP算法

    BF(Brute Force)算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符:若不相等,则比较S的 ...

随机推荐

  1. QT程序打包发布

    本来感觉这是一个简单的操作,今天看见群里有人在问这个问题,他说网上查了很多都不成功,突然就想把自己初学的时候记录一下! 题目谢了QT程序的打包发布,那就是两步骤:打包+发布! 注释:这篇博文用的是Qt ...

  2. 实例展示elasticsearch集群生态,分片以及水平扩展.

    elasticsearch用于构建高可用和可扩展的系统.扩展的方式可以是购买更好的服务器(纵向扩展)或者购买更多的服务器(横向扩展),Elasticsearch能从更强大的硬件中获得更好的性能,但是纵 ...

  3. 11G新特性 -- variable size extents

    AU是asm磁盘分配的基本单元.在oracle10g中,一个AU对应一个extent(这会增加对内存的使用),因为一个大的数据库如果含有大量的默认大小的AU,会导致数据库的share pool的大量使 ...

  4. 湾区求职分享:三个月刷题拿到 Google offer,欢迎踊跃提问

    本文仅以个人经历和个人观点作为参考.如能受益,不胜荣幸. 本文会不断的修正,更新.希望通过大家的互动最后能写出一份阅者受益的文章. 本文纯手打,会有错别字,欢迎指出,虚心接受及时更改. 小马过河,大牛 ...

  5. SNF.CodeGenerator代码生成器前夕-代码生成器初始配置

    如果你是第一次使用SNF快速开发平台的话,第一次运行代码生成器的话,可以需要以下信息来帮助你快速进行配置和使用. 代码生成器在使用之前有几个地方需要配置,如果是第一次登录会提示无授权,弹出一个框填入授 ...

  6. 分享:android图片浏览器—类微信朋友圈相片浏览【android代码下载】

    今天给大家分享个android图片/相册浏览器,类似微信朋友圈相片浏览,可以左右滑动,可以双击放大,捏拉放大 效果如下:<ignore_js_op> device-2013-09-04-1 ...

  7. golang channel select

    尝试多个channel同时触发时,select的表现: package main import ( "fmt" "time" ) func loop(ch ch ...

  8. 对ThreadLocal实现原理的一点思考

    前言 在<透彻理解Spring事务设计思想之手写实现>中,已经向大家揭示了Spring就是利用ThreadLocal来实现一个线程中的Connection是同一个,从而保证了事务.本篇博客 ...

  9. Instrumentation 功能介绍(javaagent)

    利用 Java 代码,即 java.lang.instrument 做动态 Instrumentation 是 Java SE 5 的新特性,它把 Java 的 instrument 功能从本地代码中 ...

  10. 【系统移植】uboot详细分析

    uboot使用 uboot控制台,倒计时    命令: 调试,操作一些硬件 setenv printenv saveenv  nand erase  nand write  tftp zImage h ...