1. 引言

前一篇中介绍了字符串KMP算法，其利用失配时已匹配的字符信息，以确定下一次匹配时模式串的起始位置。本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法，它到底是怎么快的呢？且听下面分解。

不同于KMP在匹配过程中从左至右与主串字符做比较，Boyer-Moore算法是从模式串的尾字符开始从右至左做比较。下面讨论的一些递推式都与BM算法的这个特性有关。

思想

首先，我们一般化匹配失败的情况，设主串y、模式串x的失配位置为i+j与i，且主串、模式串的长度各为n与m，如下图：

已匹配上的字符结构：

y[i+j+1…j+m−1]=x[i+1…m−1]

失配后下一次匹配时，模式串应如何对齐于主串呢？从上图中看出，我们可以利用两方面的信息：

已经匹配上的字符结构，
主串失配位置的字符

前一篇中的KMP算法只利用第一条信息，而Boyer-Moore算法则是将这两方面的信息都利用到了，故模式串的移动更为高效。同时，根据这两方面信息（已匹配信息与失配信息），Boyer-Moore算法引申出来两条移动规则：好后缀移动（good-suffix shift）与坏字符移动（bad-character shift）。

实例

Moore教授在这里给出BM算法一个实例，比如主串=HERE IS A SIMPLE EXAMPLE，模式串=EXAMPLE。第一次匹配如下图：

在第一次匹配中，模式串在尾字符发生失配，而主串的失配字符为S，且S不属于模式串的字符；因此下一次匹配时模式串指针应向右移动7位（坏字符移动）。第二次匹配如下图：

第二次匹配也是在模式串尾字符发生失配，但不同的是主串的失配字符为P属于模式串的字符；因此下一次匹配时模式串的P（从右开始第一次出现）应对齐于主串的失配字符P（坏字符移动）。第三次匹配如下图：

在第三次匹配中，模式串的后缀MPLE完全匹配上主串，主串的失配字符为I，不属于模式串的字符；那么下一次匹配是模式串指针应怎么移动呢（是坏字符移动，还是好后缀移动？）？BM算法采取的办法：移动步数=max{坏字符移动步数, 好后缀移动步数}。（具体移动步数的计算会在下面给出），这里是按好后缀移动；第四次匹配如下图：

第四次匹配的情况与第二次类似，应按坏字符移动，第五次匹配（模式串与主串完全匹配）如下图：

2. BM算法详述

好后缀移动

因已匹配上的字符结构正好为模式串的后缀，故名之为好后缀。好后缀移动一般分为两种情况：

移动后，模式串有子串能完全匹配上好后缀；
移动后，模式串只有能部分匹配上好后缀的子串

我们用数组bmGs[i]表示模式串的失配位置为i时好后缀移动的步数。第一类情况如下图：

第二类情况如下图：

接下来的问题是应如何计算bmGs[i]呢？我们引入suff函数，其定义如下：

suff[i]=max{k: x[i−k+1…i]=x[m−k…m−1},1≤i<m

表示了模式串中末字符为x[i]的子串能匹配模式串后缀的最大长度。其中，suff[i]=m。

对于第一类情况，令i+1=m-suff[a]，则x[i+1..m-1]=x[m-suff[a]..m-1]；根据suff函数的定义，有x[m-suff[a]..m-1]=x[a-suff[a]-1..a]；则x[i+1..m-1]=x[a-suff[a]-1..a]，即可得到bmGs[i]=bmGs[m-suff[a]-1]=m-1-a。
对于第二类情况，由字符的部分匹配可得x[0..m-1-bmGs[i]]=x[bmGs[i]..m-1]，即suff[m-1-bmGs[i]]=m-bmGs[i]。令m-bmGs[i]=a，有suff[a-1]=a。因为是部分匹配，故bmGs[i] = m-a > i+1，则i < m-a-1。综上，当i < m-a-1且suff[a-1]=a时，bmGs[i]=m-a。
有可能上述两种情况都没能被匹配上，则bmGs[i]=m。

综合上述三类情况，bmGs数组计算的实现代码（参看[2]）：

void preBmGs(char *x, int m, int bmGs[]) {

   int i, j, suff[XSIZE];

   suffixes(x, m, suff);

   // case 3, default value

   for (i = 0; i < m; ++i)

      bmGs[i] = m;

   j = 0;

   // case 2

   for (i = m - 1; i >= 0; --i)

      if (suff[i] == i + 1)

         for (; j < m - 1 - i; ++j)

            if (bmGs[j] == m)

               bmGs[j] = m - 1 - i;

   // case 1

   for (i = 0; i <= m - 2; ++i)

      bmGs[m - 1 - suff[i]] = m - 1 - i;

}

坏字符移动

坏字符移动是根据主串失配位置的字符y[i+j]而进行的移动。同样地，我们用数组bmBc[c]表示主串失配位置字符为c时坏字符移动的步数。坏字符移动一般分为两种情况：

模式串x[0..i-1]有字符y[i+j]且第一次出现，如下图：
整个模式串都不包含该字符串，如下图：

据此，可以将bmBc[c]定义如下：

bmBc[c]=min{i:1≤i<m and x[m−1−i]=c}

表示距模式串末字符最近的c字符；若c字符未出现在模式串中，则bmBc[c]=m。C实现代码：

void preBmBc(char *x, int m, int bmBc[]) {

   int i;

   for (i = 0; i < ASIZE; ++i)

      bmBc[i] = m;

   for (i = 0; i < m - 1; ++i)

      bmBc[x[i]] = m - i - 1;

}

suff函数计算

bmGs[i]的计算依赖于suff函数；如何更为高效的计算suff函数成为了接下来需要考虑的问题。符号标记的定义如下：

i表示当前位置；
f记录上一轮匹配的起始位置；
g记录上一轮匹配的失配位置。

这里所说的匹配指的是与模式串后缀的匹配。同样地，一般化匹配过程，如下图：

当g < i < f则必有x[i]=x[m-1-(f-i)]=x[m-1-f+i]；

若suff[m-1-f+i] < i-g，则suff[i]=suff[m-1-f+i]；
否则，suff[i]与suff[m-1-f+i]没有关系，要根据定义进行计算。

C实现代码：

void suffixes(char *x, int m, int *suff) {

   int f, g, i;

   suff[m - 1] = m;

   g = m - 1;

   for (i = m - 2; i >= 0; --i) {

      if (i > g && suff[i + m - 1 - f] < i - g)

         suff[i] = suff[i + m - 1 - f];

      else {

         if (i < g)

            g = i;

         f = i;

         while (g >= 0 && x[g] == x[g + m - 1 - f])

            --g;

         suff[i] = f - g;

      }

   }

}

复杂度分析

3. 参考资料

[1] Moore, Boyer-Moore algorithm example.
[2] Thierry Lecroq, Boyer-Moore algorithm.
[3] sealyao, Boyer-Moore算法学习.

【模式匹配】更快的Boyer的更多相关文章

【模式匹配】更快的Boyer-Moore算法
1. 引言前一篇中介绍了字符串KMP算法,其利用失配时已匹配的字符信息,以确定下一次匹配时模式串的起始位置.本文所要介绍的Boyer-Moore算法是一种比KMP更快的字符串匹配算法,它到底是怎么快 ...
精通Web Analytics 2.0 （9）第七章：失败更快：爆发测试与实验的能量
精通Web Analytics 2.0 : 用户中心科学与在线统计艺术第七章:失败更快:爆发测试与实验的能量欢迎来到实验和测试这个棒极了的世界! 如果Web拥有一个超越所有其他渠道的巨大优势,它就 ...
假如 UNION ALL 里面的子句有 JOIN ，那个执行更快呢
比如: select id, name from table1 where name = 'x' union all select id, name from table2 where name = ...
【译】更快的方式实现PHP数组去重
原文:Faster Alternative to PHP’s Array Unique Function 概述使用PHP的array_unique()函数允许你传递一个数组,然后移除重复的值,返回一 ...
ubuntu 12.04 LTS 如何使用更快的更新源
装好ubuntu系统后的第一见事就是替换自带的更新源,原因是系统自带的源有些在中国访问不了,可以访问的速度又特别慢.幸好国内的一些公司和大学提供了速度不错的更新源.下面介绍如何使用更快的更新源方法/ ...
php提供更快的文件下载
在微博上偶然看到一篇介绍php更快下载文件的方法,其实就是利用web服务器的xsendfile特性,鸟哥的博客中只说了apache的实现方式,我找到了介绍nginx实现方式的文章,整理一下! let' ...
CSS 和 JS 动画哪个更快
基于Javascript的动画暗中同CSS过渡效果一样,甚至更加快,这怎么可能呢?而Adobe和Google持续发布的富媒体移动网站的性能可媲美本地应用,这又怎么可能呢? 本文逐一遍览了基于Javas ...
为什么get比post更快
引言 get和post在面试过程中一般都会问到,一般的区别: 1.post更安全(不会作为url的一部分,不会被缓存.保存在服务器日志.以及浏览器浏览记录中) 2.post发送的数据量更大(get有u ...
CSS VS JS动画，哪个更快[译]
英文原文:https://davidwalsh.name/css-js-animation 原作者Julian Shapiro是Velocity.js的作者,Velocity.js是一个高效易用的js ...

随机推荐

谨慎重载clone方法
本文涉及到的概念 1.浅拷贝和深拷贝 2..clone方法的作用和使用方式 3.拷贝构造器和拷贝工厂 1.浅拷贝和深拷贝浅拷贝一个类实现Cloneable接口,然后,该类的实例调用clone方 ...
vue-router.esm.js?fe87:16 [vue-router] Route with name 'page' does not exist
本文地址:http://www.cnblogs.com/veinyin/p/7910525.html 我的路由配置 { path: '/page', name: page, component: pa ...
iOS7下滑动返回与ScrollView共存二三事
[转载请注明出处] = =不是整篇复制就算注明出处了亲... iOS7下滑动返回与ScrollView共存二三事 [前情回顾] 去年的时候,写了这篇帖子iOS7滑动返回.文中提到,对于多页面结构的应用 ...
ISG2018 web题Writeup
0x01.命令注入这题可以使用burpsuite扫出来,但是可能需要测一下. 得知payload为:i%7cecho%20gzavvlsv9c%20q9szmriaiy%7c%7ca%20%23'% ...
Cookie、Session 和自定义分页
cookie Cookie的由来大家都知道HTTP协议是无状态的. 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,它不会受前面的请求响应情况直接影响,也不 ...
go标识符、变量、常量
标识符标识符是用来表示Go中的变量名或者函数名,以字母或_开头.后可跟着字母.数字. _ 关键字关键字是Go语言预先定义好的,有特殊含义的标识符. 变量 1. 语法:var identifier ...
oracle客户端不需要配置tnsnames.ora文件直接连接服务器数据库
在以前的oracle使用过程中,想要在客户端连接到服务器时,都是在客户端中的tnsnames.ora文件配置如以下内容: adb = (DESCRIPTION = (ADDRESS_LIST = (A ...
Django 1.10文档中文版Part1
目录第一章.Django1.10文档组成结构1.1 获取帮助1.2 文档的组织形式1.3 第一步1.4 模型层1.5 视图层1.6 模板层1.7 表单1.8 开发流程1.9 admin站点1.10 ...
5.Python3标准库-日期和时间
''' 不同于int,str,float,Python没有包含对应日期和时间的原生类型,不过提供了3个相应的模块,可以采用多种表示来管理日期和时间值 time模块由底层C库提供与时间相关的函数.它包含 ...
tp总结
不知不觉学tp也快一个月了,虽然还处于一个仅仅只会使用的阶段,但毕竟算是我详细接触的第一个脚本框架,tp还是让我收获了许多. 废话不多说,先列出几个对于我这种新手来说tp新奇而实用的地方. 1.连贯操 ...

【模式匹配】更快的Boyer