BM串匹配算法
串匹配算法最常用的情形是从一篇文档中查找指定文本。需要查找的文本叫做模式串,需要从中查找模式串的串暂且叫做查找串吧。
BM算法好后缀规则
公式:
对于长度为m的模式串P,在i处失配时,模式串向前滑动的距离next[i]等于:
next[i]= { 1; i = m;
i-k+1; 存在最大的K (1 <= k <= i),使得 PkPk+1..Pk+m-i-1 == Pi+1Pi+2..Pm 且Pk-1 != Pi =>case 1
m-k; 存在最大的K (1 <= k <= m-i),使得 P1P2..Pk == Pm-k+1..Pm-1Pm =>case 2
m; 其他情况; =>case 3 }
下面是图示解析(图来自http://www.tuicool.com/articles/nqqE3uU,下面是少有图绘制正确的解析):



三种情形一张图表示

可以看出好后缀规则和kmp算法有点像,kmp是从左向右有自匹配的话能减少一些比较,bm算法是从右向左有自匹配的话能减少一些比较。下面代码的思路就是先求出自匹配长度,再求移动距离。好后缀规则的代码,是Python的,直接从源代码执行的语言用来写算法很方便。这里求自匹配的代码是优化过的,优化算法参考Boyer- Moore算法百度百科。
def suffix(s):
"""
suff[i] = k, the length of the longest suffix of s[:i](the sub string of s ending at i)
that matches a suffix of s (the sub string of s ending at len(s)-1)
"""
m=len(s)
g = m-1
suff = {}
suff[g]=m
for i in range(m-2,-1,-1):
if(i>g and suff[m-1-f+i]<i-g):
suff[i] = suff[m-1-f+i]
else:
if(i<g):
g = i
f = i
while(g>=0 and s[g]==s[m-1-f+g]):
g-=1
suff[i] = f - g
return suff
def PreBmGs(s):
m = len(s)
suff = suffix(s)
bmGs = {}
for i in range(0,m,1):
bmGs[i] = m
for i in range(m-1,-1,-1):
if(i+1 == suff[i]):
for j in range(0,m-1-i,1):
if(m == bmGs[j]):
bmGs[j] = m-1-i;
for i in range(0,m-1,1):
bmGs[m - 1 - suff[i]] = m - 1 - i;
return bmGs;
坏字符规则
当模式串与查找串在某个位置失配,查找串失配位置的字符叫做坏字符。单独能实现匹配的坏字符规则是:将模式串失配位置左侧最靠近失配位置的坏字符和查找串的失配位置对齐;如果模式串失配位置左侧不包含坏字符,那么将模式串头部对齐坏字符下一个(右侧)位置。实际上的坏字符规则比这个要简单,模式串最右侧的坏字符和查找串的失配位置对齐;如果模式穿不包含坏字符,那么将模式串头部对齐坏字符下一个(右侧)位置。下图的公示就包含了这两种情况了。

由于坏字符规则不是在模式串失配位置左侧字串中应用的,所以会出现将模式串向回移动的情况。由于有好后缀规则,这种失效的情况可以被避免。

def PreBmBc(s):
m = len(s)
bmBc = {}
for i in range(0,m-1,1):
bmBc[s[i]] = i;
return bmBc;
BM算法匹配源码
def BoyerMoore(s,p):
m = len(p)
n = len(s)
bmBc = PreBmBc(p)
bmGs = PreBmGs(p)
j = 0
while(j <= n-m):
i = m-1
while(i>=0 and p[i]==s[j+i]):
i -= 1
if(i < 0):
'Find, next fint start at j+bmGs[0]'
return j
else:
bc = -1
if(bmBc.has_key(s[j+i])):
bc = bmBc[s[j+i]]
j += max(bmGs[i],i-bc)
return -1
BM算法的其他解析
http://www-igm.univ-mlv.fr/~lecroq/string/node14.html
这个地方给出的C语言代码和上面的python代码一样的方式优化了。
http://www.inf.fh-flensburg.de/lang/algorithmen/pattern/bmen.htm
这个地方给出的C代码根据上面的规则直接暴力解决。
BM串匹配算法的更多相关文章
- KMP串匹配算法解析与优化
朴素串匹配算法说明 串匹配算法最常用的情形是从一篇文档中查找指定文本.需要查找的文本叫做模式串,需要从中查找模式串的串暂且叫做查找串吧. 为了更好理解KMP算法,我们先这样看待一下朴素匹配算法吧.朴素 ...
- 串匹配算法讲解 -----BF、KMP算法
参考文章: http://www.matrix67.com/blog/archives/115 KMP算法详解 http://blog.csdn.net/yaochunnian/artic ...
- 串匹配算法之BM算法
参考资料: http://blog.csdn.net/eric491179912/article/details/6210009 http://blog.163.com/pengfeicui@ye ...
- 【数据结构】 字符串&KMP子串匹配算法
字符串 作为人机交互的途径,程序或多或少地肯定要需要处理文字信息.如何在计算机中抽象人类语言的信息就成为一个问题.字符串便是这个问题的答案.虽然从形式上来说,字符串可以算是线性表的一种,其数据储存区存 ...
- 算法 | 串匹配算法之KMP算法及其优化
主串 s:A B D A B C A B C 子串 t: A B C A B 问题:在主串 s 中是否存在一段 t 的子串呢? 形如上述问题,就是串匹配类问题.[串匹配--百度百科] 串匹配问题是一 ...
- 经典串匹配算法(KMP)解析
一.问题重述 现有字符串S1,求S1中与字符串S2完全匹配的部分,例如: S1 = "ababaababc" S2 = "ababc" 那么得到匹配的结果是5( ...
- Sunday串匹配算法 C语言实现
unsigned char * sunday( void * a_buf1, unsigned int len1, void * a_buf2, unsigned int len2 ){ unsign ...
- KMP(字符串匹配)算法
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms ...
- 算法——字符串匹配之BM算法
前言 Boyer-Moore算法是一种基于后缀匹配的模式串匹配算法(简称BM算法),后缀匹配就是模式串从右到左開始比較,但模式串的移动依旧是从左到右的.在实践中.BM算法效率高于前面介绍的<KM ...
随机推荐
- Eclipse 中使用 ctrl 无法追踪函数的问题
Eclipse 中使用 ctrl 无法追踪函数的问题 Eclipse 项目中应该有 .buildpath , .project 两个文件,如果 Eclipse 中使用 ctrl 无法追踪函数, 第一步 ...
- ElasticSearch的 Query DSL 和 Filter DSL
Elasticsearch支持很多查询方式,其中一种就是DSL,它是把请求写在JSON里面,然后进行相关的查询. Query DSL 与 Filter DSL DSL查询语言中存在两种:查询DSL(q ...
- 10G之后统计信息收集后为什么执行计划不会被立马淘汰
在10G之前,使用DBMS_STATS收集统计信息将会导致与此对象相关的游标失效,下次执行此 的时候将会进行HARD PARSE,除非收集的时候NO_INVALIDATE设置为TRUE. 由于硬解析会 ...
- UVA12653 Buses
Problem HBusesFile: buses.[c|cpp|java]Programming competitions usually require infrastructure and or ...
- cocos2d-x 中 TTF 字体文件的位置
cocos2d-x 中,字体文件需要保存在 fonts 文件夹中,如果字体路径中没有 fonts/ 会自动添加上这个文件夹. 如果字体名称没有 .ttf 后缀,也会自动加上这个后缀. unsigned ...
- 剑指Offer:面试题16——反转链表(java实现)
问题描述 定义一个函数,输入一个链表的头结点,反转该链表并输出反转后的链表的头结点.链表结点如下: public class ListNode { int val; ListNode next = n ...
- C#调用C dll,结构体传参
去年用wpf弄了个航线规划软件,用于生成无人机喷洒农药的作业航线,里面包含了不少算法.年后这几天将其中的算法移植到C,以便其他同事调用.昨天在用C#调用生成的dll时,遇到一些问题,折腾了好久才解决. ...
- TCP和HTTP的关系
TCP和HTTP的关系 首先简单地看看tcp,TCP连接是通过4个值来识别的: <源IP地址 源端口号 目的IP地址 目的端口号> 这四个值定义了一个TCP连接,两条不同的TCP连接中这四 ...
- jquery是如何清除ajax缓存的
大家都知道万恶的IE在ajax中往往只读取第一次ajax请求时候的数据,其余时候都是从cache提取数据,(太懒了T_T).原生的JS清除ajax缓存的方法多,但是终觉有点繁琐,如果是用jquery的 ...
- LA3902 Network
给出一棵树,对于每一个叶子节点要使得在它的k距离内至少一个节点被打了标记,(叶节点不能打标记,非叶结点也不必满足这个条件),现在已经有一个节点s被打了标记,问至少还要打几个标记(这表达能力也是捉急.. ...