Rabin-Karp 字符串查找算法

和一般的比较字符串的方式不同，Rabin-Karp 查找算法通过对子字符串进行 hash，如果在原有字符串中找到了 hash 值相同的字符串，那么继续比较是否是需要查找的字串，一般来讲，如果 hash 操作做的很好的话，那么一般一次匹配就是待查找的子串

基本思想

长度为 \(M\) 的字符串对应着一个 \(R\) 进制的 \(M\) 位数。为了能够使用一张大小为 \(Q\) 的散列表来保存这种类型的键，需要一个能够将 \(R\) 进制的 \(M\) 位数值转换为一个 \(0\) 到 \(Q - 1\) 的整数，在实际中，\(Q\) 会是一个比较大的素数。

例如，假设现在要搜索的目标字符串为 1234，假设现在将 \(Q\) 取为 \(10007\)，这里由于目标字符串都是数字，因此可以考虑将其直接对 \(Q\) 进行取模操作，得到 \(mod=1234\)。为了简单起见，假设待搜索的字符串的所有字符都是数字，为 011122123456，那么查找的过程如下所示：

当然，实际使用的过程中不能直接将字符串转换为对应的整数，一般会通过某种方式将字符串转换为对应的整数，如下面的 hash 函数：

private long hash(String key, int M) {

    long h = 0;

    for (int i = 0; i < M; ++i)

        h = (R*h + key.charAt(i)) % Q;

    return h;

}i

事实上，由于这种 hash 的存在，会使得搜索的时间复杂度在最坏的情况下为 \(O(NM)\)，相比较一般的暴力搜索，该方式没有任何性能上的改进。

Rabin-Karp 则通过某种方式减少了每个子串的 hash 操作，具体为：

对于原字符串所有的位置 \(i\)，高效地计算文本中 \(i + 1\) 位置的子字符串的 hash 值

使用 \(t_{i}\) 表示 txt.charAt(i)，那么文本 txt 中起始位置为 \(i\)，含有 \(M\) 个字符的子串对应的数为：

\[x_{i} = t_{i}R^{M - 1} + t_{i + 1}R^{M - 2} + …… + t_{i + M -1}R^0
\]

假设现在的 hash 函数为一般的 \(h(x_{i}) = x_{i} \mod Q\)，那么将模式字符串右移一位等价于将 \(x_{i}\) 替换为：

\[x_{i + 1} = (x_{i} - t_{i}R^{M -1})R + t_{i + M}
\]

即：\(i + 1\) 位置的子字符串的散列值为当前处理的子串的散列值减去子串第一个字符的 hash 值，然后再乘以 \(R\) 再加上最后一个字符的散列值

这是 Rabin-Karp 算法的核心思想，该方式可以保证在搜索的过程中以常数的时间复杂度进行搜索操作

实现

import java.math.BigInteger;

import java.util.concurrent.ThreadLocalRandom;

public class RabinKarp {

    private final String pat; // 待查找的模式字符串

    private final long patHash; // 模式字符串的 hash 值

    private final int M; // 模式字符串的长度

    private final long Q; // 大素数

    private final int R; // 进制数，默认为 256

    private final long RM; // R^{M - 1}

    public RabinKarp(String pat) {

        this.pat = pat;

        this.R  = 256;

        M = pat.length();

        Q = longRandomPrime();

        long rm = 1;

        for (int i = 1; i < M; i++) {

            rm = (R * rm) % Q;

        }

        RM = rm;

        patHash = hash(pat, M);

    }

    // 在 txt 中搜索是 pat，如果不存在，返回 txt 的长度

    public int search(String txt) {

        int N = txt.length();

        if (N < M) return N;

        long txtHash = hash(txt, M);

        if (txtHash == patHash && check(txt, 0)) return 0;

        for (int i = M; i < N; ++i) {

            // 带入公式，假设这里不会出现 long 整数溢出

            txtHash = txtHash - RM*txt.charAt(i - M);

            txtHash = txtHash*R + txt.charAt(i);

            if (txtHash == patHash && check(txt, i - M + 1)) {

                return i - M + 1;

            }

        }

        return N;

    }

    // 检查 hash 匹配的两个字符串是否相等

    private boolean check(String txt, int i) {

        for (int j = 0; j < M; ++j) {

            if (txt.charAt(i + j) != pat.charAt(j)) {

                System.out.println("check false"); // 理论上来讲会执行的概率特别低

                return false;

            }

        }

        return true;

    }

    // 生成子串对应的 hash 值

    private long hash(String key, int len) {

        long h = 0;

        for (int j = 0; j < len; j++) {

            h = (R*h + key.charAt(j)) % Q;

        }

        return h;

    }

    // 随机生成一个大的素数

    private long longRandomPrime() {

        BigInteger prime = BigInteger.probablePrime(31,

                ThreadLocalRandom.current()

        );

        return prime.longValue();

    }

}

参考：

^[1] 《算法（第四版）》

Rabin-Karp 字符串查找算法的更多相关文章

Rabin-Karp字符串查找算法
1.简介暴力字符串匹配(brute force string matching)是子串匹配算法中最基本的一种,它确实有自己的优点,比如它并不需要对文本(text)或模式串(pattern)进行预处理 ...
KMP 算法 & 字符串查找算法
KMP算法 Knuth–Morris–Pratt algorithm 克努斯-莫里斯-普拉特算法 algorithm kmp_search: input: an array of character ...
Rabin-Karp指纹字符串查找算法
首先计算模式字符串的散列函数, 如果找到一个和模式字符串散列值相同的子字符串, 那么继续验证两者是否匹配. 这个过程等价于将模式保存在一个散列表中, 然后在文本中的所有子字符串查找. 但不需要为散列表 ...
字符串查找算法的改进-hash查找算法
字符串查找即为特征查找: 特征即位hash: 1.将待查找的字符串hash: 2.在容器字符串中找头字符匹配的字符串,并进行hash: 3.比较hash的结果:相同即位匹配: hash算法的设计为其中 ...
字符串查找算法总结（暴力匹配、KMP 算法、Boyer-Moore 算法和 Sunday 算法）
字符串匹配是字符串的一种基本操作:给定一个长度为 M 的文本和一个长度为 N 的模式串,在文本中找到一个和该模式相符的子字符串,并返回该字字符串在文本中的位置. KMP 算法,全称是 Knuth-Mo ...
KMP字符串查找算法
#include <iostream> #include <windows.h> using namespace std; void get_next(char *str,in ...
Sunday算法（字符串查找、匹配）
字符串查找算法中,最著名的两个是KMP算法(Knuth-Morris-Pratt)和BM算法(Boyer-Moore).两个算法在最坏情况下均具有线性的查找时间.但是在实用上,KMP算法并不比最简单的 ...
数据结构与算法--Boyer-Moore和Rabin-Karp子字符串查找
数据结构与算法--Boyer-Moore和Rabin-Karp子字符串查找 Boyer-Moore字符串查找算法注意,<算法4>上将这个版本的实现称为Broyer-Moore算法,我看了 ...
字符串类——KMP子串查找算法
1, 如何在目标字符串 s 中,查找是否存在子串 p(本文代码已集成到字符串类——字符串类的创建(上)中,这里讲述KMP实现原理) ? 1,朴素算法: 2,朴素解法的问题: 1,问题:有时候右移一位是 ...
字符串查找String.IndexOf
String.indexOf的模拟实现,没想象中有多么高深的查找算法,就是最普通的遍历查找思路:先找到第一个相同的字符,然后依次比较后面的字符,若都相等则表示查找成功 /** * 查找字符串patt ...

随机推荐

蓝桥杯真题——第十三届蓝桥杯大赛软件赛省赛 Python 大学 B 组
HBuilderX内置终端无法使用不能输入
找到HBuilderX的目录打开plugins\builtincef3terminal\script找到main.js用记事本或其他什么打开他把这部分代码替换成这个再重启hbuilderX就可以了 ...
每个后端都应该了解的OpenResty入门以及网关安全实战
简介在官网上对 OpenResty 是这样介绍的(http://openresty.org): "OpenResty 是一个基于 Nginx 与 Lua 的高性能 Web 平台,其内部集成 ...
后缀自动机 (SAM) 的构造及应用
cnblogs 怎么又炸了. 为什么又可爱又强的 xxn 去年 9 月就会的科技樱雪喵现在还不会呢 /kel. 感觉 SAM 的教程已经被前人写烂了啊.那就写点个人学习过程中对 SAM 的理解. 参考 ...
Python：基础&爬虫
Python:基础&爬虫 Python爬虫学习(网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另 ...
使用JNA读取dll文件
由于项目需要进行读卡操作,需要使用java进行读取dll文件设备:德卡T10 1. 引入POM文件 <dependency> <groupId>net.java.dev.jn ...
不可复制的PDF转成双层可复制PDF
有些PDF是通过扫描或者虚拟打印机生成的,这些PDF不可复制里边的内容市面上的工具一般都是收费或者有水印,所以就萌生了自己搞一个的想法: 使用了以下三个开源库 PdfiumViewer PDF预览及 ...
零基础快速上手STM32开发（手把手保姆级教程）
零基础快速上手STM32开发(手把手保姆级教程) 1. 前言作为一名嵌入式工程师,STM32 是必须要学习的一款单片机,同时这款单片机资料足够多,而且比较简单,非常适合初学者入门. STM32 是一 ...
JavaScript高级程序设计笔记08 对象、类与面向对象编程
对象.类与面向对象编程对象一组属性的无序集合属性类型数据属性 value.writable 访问器属性 getter.setter至少有一定义 .操作符:默认可配置.可枚举.可写(数据属性 ...
滚动更新和回滚部署在 Kubernetes 中的工作原理
公众号「架构成长指南」,专注于生产实践.云原生.分布式系统.大数据技术分享. 在过去的几年中,Kubernetes 在生产环境中被广泛使用,它通过其声明式 API 提供了大量解决方案,用于编排容器. ...

Rabin-Karp 字符串查找算法

基本思想

实现

Rabin-Karp 字符串查找算法的更多相关文章

随机推荐

热门专题