如何在文本编辑器中实现时间复杂度O(n/m)的搜索功能? BM算法
//字符串匹配
public class StringCmp {
//约定:A主串长 n ,B模式串 长m。要求:在A串中找到B串匹配的下标 //BM算法:从B串和A串尾部开始比较,希望一次将B串向后滑动尽量多的位数,
// 以跳过不匹配的情况,理想情况的时间复杂度是 O(n/m)
//
// A A----------*==---------
// B B---*== *为在A中的坏字符,*在B中的相同位置
// *右边的部分,2个=号表示匹配到的好后缀
// B向右滑动 B---*== 向右滑动了2位,让B坏字符位置对齐在A中相同坏字符的位置
//
// 控制B向右滑动多少位,有2个主要策略
//坏字符:在B中寻找最靠右(下标最大)的相同字符下标
//好后缀:在B中寻找最靠右(下标最大)的相同好后缀,及好后缀子串的下标
// (例如好后缀是abcd,那么好后缀子串有bcd,cd,d这3个(从右侧开始框选))
// 思路:
// 先用坏字符策略,在B串中从右往左找到下标j,若j<m,说明j的右侧有匹配成功的好后缀
// 如果没有好后缀,B向右移动坏字符在B中最大下标个位置
// 如果有好后缀, //在坏字符方式中,用于以hash方式快速找到某个坏字符在b串中的最大下标,用于做b串的快速向右滑动
private static int[] BMInitBadCharTable(char b[]) {
int[] bcoff = new int[256]; //只考虑ascii 的256个字符的情况 ,bcoff[ascii] = 该字符在b中最大下标值
for (int i = 0; i < bcoff.length; i++)
bcoff[i] = -1;
for (int i = 0; i < b.length; i++) {
bcoff[b[i]] = i;
}
return bcoff;
} //若b串只有1个字符,那么推荐用BF算法,因为判断效果都只能是一位一位的后移比对,
//BM代码所需的机器周期应该会比BF算法更多,更耗时,但是稍微复杂一点的情况BM算法效率更高
public static long BM(char[] a, char[] b) {
int[] bctab = BMInitBadCharTable(b); //坏字符缓存初始化,记录b串中每个字符最后出现的位置下标
BMInitGoodSuffix(b); //好后缀缓存初始化,记录b串中每个后缀子串最后出现的位置下标
int i = 0; //1.以i为B串的头部对齐A串的下标
int nsubmP1 = a.length - b.length + 1; //i 指向 遍历a[0,n-m+1]
while (i < nsubmP1) {
int j; //指向b串尾部 到 头部
for (j = b.length - 1; j >= 0; j--) { //2.从b串尾部开始和a串尾部比较,找到第一个坏字符
if (b[j] != a[i + j])
break; //找到了第一个坏字符,在b串中的下标=j
}
if (j < 0) //j<0表示不存在任何一个坏字符,表示和B串完全匹配成功,直接返回 在a串中的第一个匹配的下标i
return i; int k = b.length - 1 - j; //获取匹配成功的好后缀长度 ,取值范围[1, b.len-1],至少1个字符 至 最大长度-1 个
int badOff = j - bctab[a[i + j]]; //获取坏字符向后滑动量
int goodOff = 0; //好后缀向后滑动 if (j < b.length - 1) //如果有好后缀的话,也就是说坏字符j不是第一个在b串中出现,那么使用好后缀匹配规则
goodOff = getGoodOff(b.length, j, k);
int off = Math.max(goodOff, badOff);
i = i + off;
}
return -1;
} //m=b串长度,j=坏字符在b串中下标,k=好后缀匹配长度
private static int getGoodOff(int m, int j, int k) {
int goodOff = m; //1.当好后缀既没有匹配k个字符,也没有匹配k个字符的子串(prefix),那么默认向后移动整个b串长度m
if (suffix[k] != -1)
goodOff = j - suffix[k] + 1; //2.存在和当前k个好后缀匹配的情况,返回最大下标,下标应该小于等于j,所以这里goodOff至少是1~+
else { //3.若存在小于k位的子串的前缀,那么返回 r (= k-子串长度),表示b串应该向后滑动r位,从长子串到短子串遍历 (k-1 ~ 1)
for (int r = j + 2; r < m; r++) { //m-r = 好后缀位子串位数, r=b串长度-好后缀子串位数,从位数多找到位数少
if (prefix[m - r]) { // b ----j--|---------------- m长
goodOff = r; // \-r-->/ \- 好后缀 k-2 --/ 起始是-1,再多减了1是因为 prefix是从下标1开始的
break; // m-r
}
}
}
return goodOff; //可能的返回值,m,1~j(等于1~m-k),j+2~<k ,不会有负数
} static boolean[] prefix; //下标k=后缀子串字符个数,k个字符的后缀子串是否出现在B串头部
static int[] suffix; //下标k=后缀子串字符个数,k个字符的后缀子串出现在B串的除了子串本身的最靠右(最大)下标(子串本身是最靠右的,那么记录除了字串本身第二靠右的下标)
private static void BMInitGoodSuffix(char[] b) {//初始化 b串的好后缀匹配缓存,类似于 坏字符做缓存的目的,用于加速匹配过程,直接用 k(后缀长度)查找 b串中匹配的好后缀最大下标值
//初始化 //例如 b = abcde
prefix = new boolean[b.length + 1]; //从[1] 开始
suffix = new int[b.length + 1]; //[1] = e ,[2] = de, [3] = cde
for (int i = 0; i < suffix.length; i++) {
prefix[i] = false;
suffix[i] = -1;
}
int m = b.length; //下标为 好后缀的 长度 ,如果 模式串B 为 abcde ,那么当从后往前计算字串长度时 ,
// [1] = e ,[2] = de, [3] = cde = cde ... [b.length-1] = 整个b串
// (虽然不会使用到这种情况,因为如果整个b串都被匹配上了,
// 说明已经完成了字符串匹配,不会再考虑B串向右滑动的情况了)
for (int i = 0; i < m - 1; i++) { //b[0,m-1] 作为前缀子串的长度, 每个前缀子串和 与其等长到1长度的 后缀子串比较
int j = i; //指向当前前缀子串的比较字符,从尾部到头部
int k = 0; //当前和前缀子串比较的 尾部子串长度, 从0~j (也就是从1个字符开始比较,直到和当前前缀子串长度一致为止)
while (j <= 0 && b[j] == b[m - 1 - k]) { //1.如果当前长度的整个前缀子串的每个字符未完全匹配 并且 2.当前前缀子串的单独一个字符和 后缀子串 从右到左挨个比较
j--; //说明while条件判断成功,前缀子串比较字符 向左移动1个字符,准备下一个字符的比较
k++; //后缀子串 长度+1,相当于 b[m - 1 - k] 指向的字符 从b串尾向左移动一个,准备比较下一个字符
suffix[k] = j + 1; //当前k长度的后缀子串 最后一次的匹配下标, 若之后也有匹配k长度的后缀子串出现,那么 下标值较大的会覆盖之前的
}
if (j < 0) //说明当前长度的前缀子串 和同长度的 后缀子串 每个字符完全匹配,那么k长度的后缀子串就被判定为出现在前缀中
prefix[k] = true;
}
} public static void main(String[] args) {
char[] a = "abcdefg".toCharArray();
char[] b = "def".toCharArray();
System.out.println("BM(a, b) " + BM(a, b));
}
}
输出
BM(a, b) 3
如何在文本编辑器中实现时间复杂度O(n/m)的搜索功能? BM算法的更多相关文章
- JavaScript Iframe富文本编辑器中的光标定位
最近在项目中碰到一个比较棘手的问题: 在iframe富文本编辑器中,有个工具栏,这个工具栏在iframe标签之外,工具栏上有一个按钮,点击该按钮向iframe正在编辑中的光标处插入一个图片,图片会插入 ...
- php 解析富文本编辑器中的hmtl内容,富文本样式正确输出
说明:富文本编辑器中的内容在直接获获取后需要解析以后才能在页面中正确显示 我在后端这样处理: $content = htmlspecialchars_decode($info['intro']); h ...
- 字符串匹配Boyer-Moore算法:文本编辑器中的查找功能是如何实现的?---这应该讲的最容易懂的文章了!
关于字符串匹配算法有很多,之前我有讲过一篇 KMP 匹配算法:图解字符串匹配 KMP 算法,不懂 kmp 的建议看下,写的还不错,这个算法虽然很牛逼,但在实际中用的并不是特别多.至于选择哪一种字符串匹 ...
- 富文本编辑器UEditor自定义工具栏(三、自定义工具栏功能按钮图标及工具栏样式简单修改)
导读 富文本编辑器UEditor提供丰富了定制配置项,如果想设置个性化的工具栏按钮图标有无办法呢?答案是肯定的!前两篇博文简要介绍了通过将原工具栏隐藏,在自定义的外部按钮上,调用UEditor各命令实 ...
- 过滤富文本编辑器中的html元素和其他元素
https://blog.csdn.net/fjssharpsword/article/details/53467079 1.应用场景:从一份html文件中或从String(是html内容)中提取纯文 ...
- 如何在文本编辑器中实现搜索功能? 字符串比较算法 BF算法 RK算法
1.暴力比较 BF算法 2.比较字串hash值 RK算法 //字符串匹配 public class StringCmp { //约定:A主串长 n ,B模式串 长m.要求:在A串中找到B串匹配的下标 ...
- Java文本编辑器中遇到的问题详解
今天介绍文件的读取和写入,分别用FileReader,FileWriter 1,FileWriter类(字符输出流类) 构造方法:FileWriter fw = new FileWriter(Stri ...
- 对于富文本编辑器中使用lazyload图片懒加载
使用lazyload.js图片懒加载的作用是给用户一个好的浏览体验,同时对服务器减轻了压力,当用户浏览到该图片的时候再对图片进行加载,项目中使用lazyload的时候需要将图片加入data-orgin ...
- WPF datagrid/gridcontrol 中选中多行,复制粘贴到excel或其他文本编辑器中
wpf中 data grid 开启自带的选中,然后复制,可以到excel中直接粘贴,在某些业务场景中很实用,方便.开启也很简单: SelectionMode="Row" 加上这个, ...
随机推荐
- 操作MyBatis引发Error setting null for parameter #X with JdbcType OTHER .无效的列类型
再用MyBatis操作Oracle的时候,传入null值而引发的错误 异常信息: org.springframework.jdbc.UncategorizedSQLException: Error s ...
- JavaScript 标准内置对象Promise使用学习总结
Javascript标准内置对象Promise使用学习总结 by:授客 QQ:1033553122 1. 基础用法 var condition = true; let p = new Prom ...
- 速查 NSArray NSSet NSHashTable 快速遍历之速度比较
因为NSArray中的指针并不是简单的连续存放的,所以简单的测试了Cocoa的三种集合的快速遍历(NSFastEnumeration)性能,给出简单的参考. 添加元素: [collection add ...
- 设置tabBar的图片/高度/title颜色
实现了一下内容: 1.设置tabBarItem选中及非选中时的图片,图片充满item; 2.调整了 tabBar 高度; 3.改变了title颜色及位置. ------------代码如下: ---T ...
- java web轻量级开发面试教程
最近面试java后端开发的感受:如果就以平时项目经验来面试,通过估计很难——再论面试前的准备 在上周,我密集面试了若干位Java后端的候选人,工作经验在3到5年间.我的标准其实不复杂:第一能干活,第二 ...
- 【转载】Java程序模拟公安局人员管理系统
编程题:公安人员的管理系统1) 学生类:a) 属性:i. 身份号—默认没有,需要手动进行输入ii. 姓名iii. 性别iv. 年龄v. 密码vi. 居住地址vii. 注册日期viii. 人员的信誉程度 ...
- vue element-ui父列表和子列表同时出现时的bug
在项目中遇到这样的问题 当第一个父列表下的子列表选择了1,切换到第二个父列表的时候,也会默认选择1 我最开始是计划通过修改子列表的default-active为-1,结果不行 后来发现出现这个问题的原 ...
- salt-api 获取服务器信息,minion批量执行cmd命令
import requests import json try: import cookielib except: import http.cookiejar as cookielib # 使用url ...
- 易优CMS:arclist 文档列表
arclist 文档列表(配合arcpagelist标签可实现ajax瀑布流分页) [基础用法] 名称:arclist 功能:获取系统主从表模型(如:文章.软件.图集.产品等)的一列文档,也称自由列 ...
- Jenkinsfile构建docker镜像
pipeline { agent any stages { stage('preparation') { steps { echo "workspace: ${WORKSPACE}" ...