字符串匹配的Boyer-Moore算法详解加 C# 实现

上一篇文章，我介绍了KMP算法。

　　但是，它并不是效率最高的算法，实际采用并不多。各种文本编辑器的"查找"功能（Ctrl+F），大多采用Boyer-Moore算法。

　　Boyer-Moore算法不仅效率高，而且构思巧妙，容易理解。1977年，德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明了这种算法。

　　下面，我根据Moore教授自己的例子来解释这种算法。

　　假定字符串为"HERE IS A SIMPLE EXAMPLE"，搜索词为"EXAMPLE"。

　　首先，"字符串"与"搜索词"头部对齐，从尾部开始比较。

　　这是一个很聪明的想法，因为如果尾部字符不匹配，那么只要一次比较，就可以知道前7个字符（整体上）肯定不是要找的结果。

　　我们看到，"S"与"E"不匹配。这时，"S"就被称为"坏字符"（bad character），即不匹配的字符。我们还发现，"S"不包含在搜索词"EXAMPLE"之中，这意味着可以把搜索词直接移到"S"的后一位。

　　依然从尾部开始比较，发现"P"与"E"不匹配，所以"P"是"坏字符"。但是，"P"包含在搜索词"EXAMPLE"之中。所以，将搜索词后移两位，两个"P"对齐。

　　我们由此总结出"坏字符规则"：

　　后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

　　如果"坏字符"不包含在搜索词之中，则上一次出现位置为 -1。

　　以"P"为例，它作为"坏字符"，出现在搜索词的第6位（从0开始编号），在搜索词中的上一次出现位置为4，所以后移 6 - 4 = 2位。再以前面第二步的"S"为例，它出现在第6位，上一次出现位置是 -1（即未出现），则整个搜索词后移 6 - (-1) = 7位。

　　依然从尾部开始比较，"E"与"E"匹配。

　　比较前面一位，"LE"与"LE"匹配。

　　比较前面一位，"PLE"与"PLE"匹配。

　　比较前面一位，"MPLE"与"MPLE"匹配。我们把这种情况称为"好后缀"（good suffix），即所有尾部匹配的字符串。注意，"MPLE"、"PLE"、"LE"、"E"都是好后缀。

　　比较前一位，发现"I"与"A"不匹配。所以，"I"是"坏字符"。

　　10.

　　根据"坏字符规则"，此时搜索词应该后移 2 - （-1）= 3 位。问题是，此时有没有更好的移法？

　　11.

　　我们知道，此时存在"好后缀"。所以，可以采用"好后缀规则"：

　　后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

　　举例来说，如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的位置是5（从0开始计算，取最后的"B"的值），在"搜索词中的上一次出现位置"是1（第一个"B"的位置），所以后移 5 - 1 = 4位，前一个"AB"移到后一个"AB"的位置。

　　再举一个例子，如果字符串"ABCDEF"的"EF"是好后缀，则"EF"的位置是5 ，上一次出现的位置是 -1（即未出现），所以后移 5 - (-1) = 6位，即整个字符串移到"F"的后一位。

　　这个规则有三个注意点：

　　（1）"好后缀"的位置以最后一个字符为准。假定"ABCDEF"的"EF"是好后缀，则它的位置以"F"为准，即5（从0开始计算）。

　　（2）如果"好后缀"在搜索词中只出现一次，则它的上一次出现位置为 -1。比如，"EF"在"ABCDEF"之中只出现一次，则它的上一次出现位置为-1（即未出现）。

　　（3）如果"好后缀"有多个，则除了最长的那个"好后缀"，其他"好后缀"的上一次出现位置必须在头部。比如，假定"BABCDAB"的"好后缀"是"DAB"、"AB"、"B"，请问这时"好后缀"的上一次出现位置是什么？回答是，此时采用的好后缀是"B"，它的上一次出现位置是头部，即第0位。这个规则也可以这样表达：如果最长的那个"好后缀"只出现一次，则可以把搜索词改写成如下形式进行位置计算"(DA)BABCDAB"，即虚拟加入最前面的"DA"。

　　回到上文的这个例子。此时，所有的"好后缀"（MPLE、PLE、LE、E）之中，只有"E"在"EXAMPLE"还出现在头部，所以后移 6 - 0 = 6位。

　　12.

　　可以看到，"坏字符规则"只能移3位，"好后缀规则"可以移6位。所以，Boyer-Moore算法的基本思想是，每次后移这两个规则之中的较大值。

　　更巧妙的是，这两个规则的移动位数，只与搜索词有关，与原字符串无关。因此，可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时，只要查表比较一下就可以了。

　　13.

　　继续从尾部开始比较，"P"与"E"不匹配，因此"P"是"坏字符"。根据"坏字符规则"，后移 6 - 4 = 2位。

　　14.

　　从尾部开始逐位比较，发现全部匹配，于是搜索结束。如果还要继续查找（即找出全部匹配），则根据"好后缀规则"，后移 6 - 0 = 6位，即头部的"E"移到尾部的"E"的位置。

声明：BM算法的详解文章来阮一峰的博客，我这里没有侵权的意思，只是用来学习，望作者谅解！
原文地址：
http://www.ruanyifeng.com/blog/2013/05/boyer-moore_string_search_algorithm.html

下面是我用C#实现的上述算法：

         public static int Arithmetic_BM(string operateStr, string findStr)

         {

             //i：匹配开始的索引，j：operateStr字符串的索引迭代，k：findStr字符串索引迭代

             int i = , j = findStr.Length - , k = j;

             int n, m = ; //n:坏字符规则计算出的移动位数，m:好后缀计算出的移动位数

             while (k >=  && j < operateStr.Length)

             {

                 if (k == ) //全部匹配，return

                 {

                     return i;

                     break;

                 }

                 if (operateStr[j] == findStr[k]) //匹配，next

                 {

                     j--;

                     k--;

                 }

                 else

                 {

                     //当k<要匹配的字符串长度时，说明已经有匹配的字符了，即有“好后缀”

                     if (k < findStr.Length - )

                     {

                         //采用"好后缀规则"，先找出“全好后缀”有没有在前面存在

                         var goodSuffix = findStr.Substring(k + ); //分割出全好后缀

                         var tempStr = findStr.Substring(, k + ); //去掉好缀后的字符串

                         //最全好后缀在剩下的字符串中出现

                         if (tempStr.Contains(goodSuffix))

                         {

                             var lastGoodSuffix = char.Parse(goodSuffix.Substring(goodSuffix.Length - )); //好后缀的最后一个字符

                             //找出 该字符的出现位置

                             IList<int> indexs = new List<int>();

                             for (int x = ; x < tempStr.Length; x++)

                             {

                                 if (lastGoodSuffix == tempStr[x])

                                 {

                                     indexs.Add(x);

                                 }

                             }

                             //找出 好后缀在搜索词中的上一次出现位置

                             var result = -;

                             for (int x = indexs.Count - ; x >= ; x--)

                             {

                                 if (indexs[x] >= goodSuffix.Length &&

                                     tempStr.Substring(indexs[x] - goodSuffix.Length + , goodSuffix.Length) == goodSuffix)

                                 {

                                     result = indexs[x];

                                     break;

                                 }

                             }

                             //好后缀规则结果

                             m = findStr.Length -  - result;

                         }

                         //最长好后缀没有没出现，但是好后缀最后一个字符，出现在头部

                         //后移位数 = 好后缀的位置 - (0)搜索词中的上一次出现位置

                         else if (findStr.Substring(, ) == findStr.Substring(findStr.Length - ))

                         {

                             m = findStr.Length - ;

                         }

                         else //好后缀只出现一次  (后移位数 = 好后缀的位置 - (-1)搜索词中的上一次出现位置)

                         {

                             m = findStr.Length;

                         }

                     }

                     //坏字符规则：后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

                     n = (j - i) - findStr.LastIndexOf(operateStr[j]);

                     //比较坏字符规则和好后缀规则移动的位数，得出最终移动位数

                     if (n > m)

                     {

                         i += n;

                         j = i + findStr.Length - ;

                     }

                     else

                     {

                         i += m;

                         j = i + findStr.Length - ;

                     }

                     k = findStr.Length - ;

                     m = ; //清零

                 }

             }

             return -;

         }

分享给大家，这是我自己写的不排除有问题，如有更好的实现，请提出。

字符串匹配的Boyer-Moore算法详解加 C# 实现的更多相关文章

KMP算法详解&&P3375 【模板】KMP字符串匹配题解
KMP算法详解: KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt(雾)提出的. 对于字符串匹配问题(such as 问你在abababb中有多少个 ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
kmp算法详解
转自:http://blog.csdn.net/ddupd/article/details/19899263 KMP算法详解 KMP算法简介: KMP算法是一种高效的字符串匹配算法,关于字符串匹配最简 ...
[转] KMP算法详解
转载自:http://www.matrix67.com/blog/archives/115 KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的K ...
KMP算法详解(转自中学生OI写的。。ORZ！)
KMP算法详解如果机房马上要关门了,或者你急着要和MM约会,请直接跳到第六个自然段. 我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法.KMP算法是拿来处理字符串匹配的.换句 ...
数据结构4.3_字符串模式匹配——KMP算法详解
next数组表示字符串前后缀匹配的最大长度.是KMP算法的精髓所在.可以起到决定模式字符串右移多少长度以达到跳跃式匹配的高效模式. 以下是对next数组的解释: 如何求next数组: 相关链接:按顺序 ...
【转】AC算法详解
原文转自:http://blog.csdn.net/joylnwang/article/details/6793192 AC算法是Alfred V.Aho(<编译原理>(龙书)的作者),和 ...
安全体系（三）——SHA1算法详解
本文主要讲述使用SHA1算法计算信息摘要的过程. 安全体系(零)—— 加解密算法.消息摘要.消息认证技术.数字签名与公钥证书安全体系(一)—— DES算法详解安全体系(二)——RSA算法详解为保 ...
算法进阶面试题01——KMP算法详解、输出含两次原子串的最短串、判断T1是否包含T2子树、Manacher算法详解、使字符串成为最短回文串
1.KMP算法详解与应用子序列:可以连续可以不连续. 子数组/串:要连续暴力方法:逐个位置比对. KMP:让前面的,指导后面. 概念建设: d的最长前缀与最长后缀的匹配长度为3.(前缀不能到最后一 ...

随机推荐

maven中的 dependencies 和 dependencyManagement 的区别
今天我在配置 sellercenter 的接口测试环境的时候,发现一些依赖的写法不太一致: 比如有的依赖的<scope>是写在子项目中的 <dependencies> 下的&l ...
C#基础系列：实现自己的ORM（反射以及Attribute在ORM中的应用）
反射以及Attribute在ORM中的应用一. 反射什么是反射?简单点吧,反射就是在运行时动态获取对象信息的方法,比如运行时知道对象有哪些属性,方法,委托等等等等.反射有什么用呢?反射不但让你在运行 ...
Linux 安装配置Subversion edge
2014-04-14:修正部分描述.添加JAVA_HOME报错处理步骤.添加配置sudoers 系统:CentOS 5.8 ,6.4 Subversion版本:Subversion Edge 4.0. ...
查询一个ID出现2种结果的情况
项目中书籍分个人和机构,分属不同的表所以有的时候ID是一样的,那么只根据ID查询书籍就会存在ID=xxx的既有个人又有机构,而通常我们可能只需要一个,多的没做区分就出问题了! 所以数据统一做查询的时 ...
[软件测试]Linux环境中简单清爽的Google Test （GTest）测试环境搭建（初级使用）
本文将介绍单元测试工具google test(GTEST)在linux操作系统中测试环境的搭建方法.本文属于google test使用的基础教程.在linux中使用google test之前,需要对如 ...
Provider 错误 '80004005' 未指定的错误 /conn.asp，行 23
网站本来正常,由于网站修改了title标签的内容,想要百度快照快点更新. 就自己提交快照.在下面网站: http://zhanzhang.baidu.com/sitesubmit/index 提交UR ...
QQ第三方登录
QQ第三方登录在Android应用程序的开发过程中,很多时候需要加入用户登录/注册模块.除了自己动手设计登录界面并实现相应功能外,现在还可以借助百度.腾讯等开发者平台提供的第三方账号登录模块.最近研 ...
IOS判断app在appstore是否有可用的更新
iTunes可以提供app的版本信息,主要通过appid获取,如 http://itunes.apple.com/lookup?id=946449501,使用时只需要到iTunes查找自己的appid ...
[USACO]6.1.3 cow xor（二进制+Trie）
题意:给你一个序列(n<=100000),求出一个连续的子序列[i,j]使得ai xor ai+1 xor…… xor aj最大,求出这个最大值(其中每个数<=2^21) 分析:题目和求一 ...
AngularJS - 快速入门
刚开始接触时总是去wiki或各种百科以了解一番. 它们会告诉我一些MVVM.双向数据绑定.依赖注入等等名词,觉得这些名词好上档次,然后我很可能就不打算用这个东西了. AngularJS是什么? 完全使 ...

字符串匹配的Boyer-Moore算法 详解 加 C# 实现

字符串匹配的Boyer-Moore算法 详解 加 C# 实现的更多相关文章

随机推荐

热门专题

字符串匹配的Boyer-Moore算法详解加 C# 实现

字符串匹配的Boyer-Moore算法详解加 C# 实现的更多相关文章