//字符串匹配
public class StringCmp {
//约定:A主串长 n ,B模式串 长m。要求:在A串中找到B串匹配的下标 //BM算法:从B串和A串尾部开始比较,希望一次将B串向后滑动尽量多的位数,
// 以跳过不匹配的情况,理想情况的时间复杂度是 O(n/m)
//
// A A----------*==---------
// B B---*== *为在A中的坏字符,*在B中的相同位置
// *右边的部分,2个=号表示匹配到的好后缀
// B向右滑动 B---*== 向右滑动了2位,让B坏字符位置对齐在A中相同坏字符的位置
//
// 控制B向右滑动多少位,有2个主要策略
//坏字符:在B中寻找最靠右(下标最大)的相同字符下标
//好后缀:在B中寻找最靠右(下标最大)的相同好后缀,及好后缀子串的下标
// (例如好后缀是abcd,那么好后缀子串有bcd,cd,d这3个(从右侧开始框选))
// 思路:
// 先用坏字符策略,在B串中从右往左找到下标j,若j<m,说明j的右侧有匹配成功的好后缀
// 如果没有好后缀,B向右移动坏字符在B中最大下标个位置
// 如果有好后缀, //在坏字符方式中,用于以hash方式快速找到某个坏字符在b串中的最大下标,用于做b串的快速向右滑动
private static int[] BMInitBadCharTable(char b[]) {
int[] bcoff = new int[256]; //只考虑ascii 的256个字符的情况 ,bcoff[ascii] = 该字符在b中最大下标值
for (int i = 0; i < bcoff.length; i++)
bcoff[i] = -1;
for (int i = 0; i < b.length; i++) {
bcoff[b[i]] = i;
}
return bcoff;
} //若b串只有1个字符,那么推荐用BF算法,因为判断效果都只能是一位一位的后移比对,
//BM代码所需的机器周期应该会比BF算法更多,更耗时,但是稍微复杂一点的情况BM算法效率更高
public static long BM(char[] a, char[] b) {
int[] bctab = BMInitBadCharTable(b); //坏字符缓存初始化,记录b串中每个字符最后出现的位置下标
BMInitGoodSuffix(b); //好后缀缓存初始化,记录b串中每个后缀子串最后出现的位置下标
int i = 0; //1.以i为B串的头部对齐A串的下标
int nsubmP1 = a.length - b.length + 1; //i 指向 遍历a[0,n-m+1]
while (i < nsubmP1) {
int j; //指向b串尾部 到 头部
for (j = b.length - 1; j >= 0; j--) { //2.从b串尾部开始和a串尾部比较,找到第一个坏字符
if (b[j] != a[i + j])
break; //找到了第一个坏字符,在b串中的下标=j
}
if (j < 0) //j<0表示不存在任何一个坏字符,表示和B串完全匹配成功,直接返回 在a串中的第一个匹配的下标i
return i; int k = b.length - 1 - j; //获取匹配成功的好后缀长度 ,取值范围[1, b.len-1],至少1个字符 至 最大长度-1 个
int badOff = j - bctab[a[i + j]]; //获取坏字符向后滑动量
int goodOff = 0; //好后缀向后滑动 if (j < b.length - 1) //如果有好后缀的话,也就是说坏字符j不是第一个在b串中出现,那么使用好后缀匹配规则
goodOff = getGoodOff(b.length, j, k);
int off = Math.max(goodOff, badOff);
i = i + off;
}
return -1;
} //m=b串长度,j=坏字符在b串中下标,k=好后缀匹配长度
private static int getGoodOff(int m, int j, int k) {
int goodOff = m; //1.当好后缀既没有匹配k个字符,也没有匹配k个字符的子串(prefix),那么默认向后移动整个b串长度m
if (suffix[k] != -1)
goodOff = j - suffix[k] + 1; //2.存在和当前k个好后缀匹配的情况,返回最大下标,下标应该小于等于j,所以这里goodOff至少是1~+
else { //3.若存在小于k位的子串的前缀,那么返回 r (= k-子串长度),表示b串应该向后滑动r位,从长子串到短子串遍历 (k-1 ~ 1)
for (int r = j + 2; r < m; r++) { //m-r = 好后缀位子串位数, r=b串长度-好后缀子串位数,从位数多找到位数少
if (prefix[m - r]) { // b ----j--|---------------- m长
goodOff = r; // \-r-->/ \- 好后缀 k-2 --/ 起始是-1,再多减了1是因为 prefix是从下标1开始的
break; // m-r
}
}
}
return goodOff; //可能的返回值,m,1~j(等于1~m-k),j+2~<k ,不会有负数
} static boolean[] prefix; //下标k=后缀子串字符个数,k个字符的后缀子串是否出现在B串头部
static int[] suffix; //下标k=后缀子串字符个数,k个字符的后缀子串出现在B串的除了子串本身的最靠右(最大)下标(子串本身是最靠右的,那么记录除了字串本身第二靠右的下标)
private static void BMInitGoodSuffix(char[] b) {//初始化 b串的好后缀匹配缓存,类似于 坏字符做缓存的目的,用于加速匹配过程,直接用 k(后缀长度)查找 b串中匹配的好后缀最大下标值
//初始化 //例如 b = abcde
prefix = new boolean[b.length + 1]; //从[1] 开始
suffix = new int[b.length + 1]; //[1] = e ,[2] = de, [3] = cde
for (int i = 0; i < suffix.length; i++) {
prefix[i] = false;
suffix[i] = -1;
}
int m = b.length; //下标为 好后缀的 长度 ,如果 模式串B 为 abcde ,那么当从后往前计算字串长度时 ,
// [1] = e ,[2] = de, [3] = cde = cde ... [b.length-1] = 整个b串
// (虽然不会使用到这种情况,因为如果整个b串都被匹配上了,
// 说明已经完成了字符串匹配,不会再考虑B串向右滑动的情况了)
for (int i = 0; i < m - 1; i++) { //b[0,m-1] 作为前缀子串的长度, 每个前缀子串和 与其等长到1长度的 后缀子串比较
int j = i; //指向当前前缀子串的比较字符,从尾部到头部
int k = 0; //当前和前缀子串比较的 尾部子串长度, 从0~j (也就是从1个字符开始比较,直到和当前前缀子串长度一致为止)
while (j <= 0 && b[j] == b[m - 1 - k]) { //1.如果当前长度的整个前缀子串的每个字符未完全匹配 并且 2.当前前缀子串的单独一个字符和 后缀子串 从右到左挨个比较
j--; //说明while条件判断成功,前缀子串比较字符 向左移动1个字符,准备下一个字符的比较
k++; //后缀子串 长度+1,相当于 b[m - 1 - k] 指向的字符 从b串尾向左移动一个,准备比较下一个字符
suffix[k] = j + 1; //当前k长度的后缀子串 最后一次的匹配下标, 若之后也有匹配k长度的后缀子串出现,那么 下标值较大的会覆盖之前的
}
if (j < 0) //说明当前长度的前缀子串 和同长度的 后缀子串 每个字符完全匹配,那么k长度的后缀子串就被判定为出现在前缀中
prefix[k] = true;
}
} public static void main(String[] args) {
char[] a = "abcdefg".toCharArray();
char[] b = "def".toCharArray();
System.out.println("BM(a, b) " + BM(a, b));
}
}

输出

BM(a, b) 3

如何在文本编辑器中实现时间复杂度O(n/m)的搜索功能? BM算法的更多相关文章

  1. JavaScript Iframe富文本编辑器中的光标定位

    最近在项目中碰到一个比较棘手的问题: 在iframe富文本编辑器中,有个工具栏,这个工具栏在iframe标签之外,工具栏上有一个按钮,点击该按钮向iframe正在编辑中的光标处插入一个图片,图片会插入 ...

  2. php 解析富文本编辑器中的hmtl内容,富文本样式正确输出

    说明:富文本编辑器中的内容在直接获获取后需要解析以后才能在页面中正确显示 我在后端这样处理: $content = htmlspecialchars_decode($info['intro']); h ...

  3. 字符串匹配Boyer-Moore算法:文本编辑器中的查找功能是如何实现的?---这应该讲的最容易懂的文章了!

    关于字符串匹配算法有很多,之前我有讲过一篇 KMP 匹配算法:图解字符串匹配 KMP 算法,不懂 kmp 的建议看下,写的还不错,这个算法虽然很牛逼,但在实际中用的并不是特别多.至于选择哪一种字符串匹 ...

  4. 富文本编辑器UEditor自定义工具栏(三、自定义工具栏功能按钮图标及工具栏样式简单修改)

    导读 富文本编辑器UEditor提供丰富了定制配置项,如果想设置个性化的工具栏按钮图标有无办法呢?答案是肯定的!前两篇博文简要介绍了通过将原工具栏隐藏,在自定义的外部按钮上,调用UEditor各命令实 ...

  5. 过滤富文本编辑器中的html元素和其他元素

    https://blog.csdn.net/fjssharpsword/article/details/53467079 1.应用场景:从一份html文件中或从String(是html内容)中提取纯文 ...

  6. 如何在文本编辑器中实现搜索功能? 字符串比较算法 BF算法 RK算法

    1.暴力比较 BF算法 2.比较字串hash值 RK算法 //字符串匹配 public class StringCmp { //约定:A主串长 n ,B模式串 长m.要求:在A串中找到B串匹配的下标 ...

  7. Java文本编辑器中遇到的问题详解

    今天介绍文件的读取和写入,分别用FileReader,FileWriter 1,FileWriter类(字符输出流类) 构造方法:FileWriter fw = new FileWriter(Stri ...

  8. 对于富文本编辑器中使用lazyload图片懒加载

    使用lazyload.js图片懒加载的作用是给用户一个好的浏览体验,同时对服务器减轻了压力,当用户浏览到该图片的时候再对图片进行加载,项目中使用lazyload的时候需要将图片加入data-orgin ...

  9. WPF datagrid/gridcontrol 中选中多行,复制粘贴到excel或其他文本编辑器中

    wpf中 data grid 开启自带的选中,然后复制,可以到excel中直接粘贴,在某些业务场景中很实用,方便.开启也很简单: SelectionMode="Row" 加上这个, ...

随机推荐

  1. VS 2017 代码报错编译正常

    今天遇到一个奇葩的错误,代码报红波浪线错误,但编译正常,程序能正常运行; 解决方法 在项目引用中把报错的代码所在项目先移除,再重新引用,然后编译一下就好了

  2. How to: Initialize Business Objects with Default Property Values in Entity Framework 如何:在EF中用默认属性值初始化业务对象

    When designing business classes, a common task is to ensure that a newly created business object is ...

  3. Redis缓存NoSQL

    下面是一些关于Redis比较好的文章,因为篇幅较大,我就将其折叠起来了.不太喜欢分不同的笔记去记载,除非真的很多很多.所以本文不仅要对Redis做简单的介绍,还要分别介绍Redis中的五种结构,并会贴 ...

  4. jqgrid addRowData报错

    今天再写项目的时候, 有一个手动添加行的功能,使用的是jqgrid的addRowData方法添加数据.但是在我们切换标签页的时候,再次添加行,调用这个方法的时候,报错了.错误信息如下 然后经过自己的反 ...

  5. 【Objective-C】探索Category底层的实质

    无论一个类设计的多么完美,在未来的需求演进中,都有可能会碰到一些无法预测的情况.那怎么扩展已有的类呢?一般而言,继承和组合是不错的选择.但是在Objective-C 2.0中,又提供了category ...

  6. Windows添加自定义开机用户登录启动程序

    默认的启动程序 Ctrl+shift -> Esc调用任务管理器-->启动项选项即可完成计算机开机自启动选项,不过这里只有系统默认添加的. 添加自定义开机启动程序 Windows+R调用运 ...

  7. JavaScript-----11.预解析

    1.预解析 1.1引子 //1问 console.log(num);//报错 num未定义 //2问 console.log(num); //undefined 未报错 var num = 10; / ...

  8. core-js@3带来的惊喜

    core-js 这个名词肯定很多人没听过,今天也是在配置babelpolyfill方法发现的 起因 在使用useBuiltIns:usage按需加载polyfill时,npm run build,就出 ...

  9. android屏幕监视工具 android screen monitor使用

    android screen monitor是一个非常好用的手机屏幕监视工具,可以将你的手机界面动态的显示出来,可用于项目演示. 这个工具就是其实一个jar文件,不到300KB大小,依赖jdk,并且还 ...

  10. C语言程序设计100例之(23):数列求和

    例23  数列求和 问题描述 已知某数列前两项为2和3,其后继项根据前面最后两项的乘积,按下列规则生成: ① 若乘积为一位数,则该乘积即为数列的后继项: ② 若乘积为二位数,则该乘积的十位上的数字和个 ...