很久以前写的。。。

今天来谈谈一种用来替代KMP算法的奇葩算法——字符串Hash

例题:给你两个字符串p和s,求出p在s中出现的次数。(字符串长度小于等于1000000)

字符串的Hash

根据字面意思,这种算法是以Hash为基础的,要Hash,就必须要将字符串转化为数字;假设这两个字符串是26个字母组成的,那么我们就可以把它们看成两个26进制的数。

但是因为字符串很长,这个数肯定是很大的,用int64(long long)存不下,那么怎么办呢?我们可以用Hash来取模,使这个数字缩小到我们可以接受的范围内。于是我们就想到了除法Hash。

Hash最重要的是解决重复,一般而言,Hash有两种方式:线性探查法、链接法,但是这两种都是以存储来解决重复的,如果要把这些字符串都存下来,空间也是不可接受,所以我们不能将这些字符串存下来以避免重复。

既然这样,我们只能求助于概率。根据生日悖论,如果取模的这个数大于等于n^2,那么冲突概率会降到50%以下,可以接受。于是我们使用100000007这个质数,概率约为50%。

这已经足够了。

两组Hash

但是,50%的概率还是有一点高。我们可以使用两组Hash来解决。

我们知道,对于任意两个数a,b,若a=b,那么无论取模的值p是多少,Hash(a)恒等于Hash(b)。也就是说,不管如何取模,两个相同的数都会被认为是相等的。所以我们可以取多个模数来降低冲突概率。如果取1个模,冲突概率为50%,那么同时取2个模的冲突概率绝对低于25%,是一个很小的概率。(一般而言,我们会取1000000007,1000000009,但是已经有被共享的数据可以冲突

Hash的加减性

仅仅是上面这些,对付例题还不够,因为我们生成一个字符串的Hash还是需要一位一位地累加,这每次会消耗O(len)的时间,很不划算。怎么办呢?

我们可以运用前缀和的思想。例如:对于如下的s

s="abcdefghij"

假设需要查找一个长度为3的字符串,那么需要比较的字符串是

abc

bcd

cde

efg

.....

可以看到,子串1(abc)和子串2(bcd)有两个字母bc是重复的,而我们之前的操作重复计算了bc的值,存在重复,这是我们优化的突破口。我们该如何避免这样的重复呢?当然是记录下来,类比片段和,片段和也是类似的通过数字的记录、加减来避免重复、快速计算。Hash的加减也和片段和差不多,只是需要注意位的对齐。

公式如下 Hash(i,j)=hash(1,j)-hash(1,i-1)*31^(j-i+1)

注释

  1. hash(i,j)表示i~j的hash值
  2. 再进行实际代码书写时,需要注意取模及负数的情况(详见代码)
  3. 这里因为字符串由小写字母构成,使用31这个进制足够大,并且31是一个质数,不像26一样容易产生重复

演示代码(Pascal)

var
s1,s2:ansistring;
n,m,i,p1,p2,ans:longint;
key1,key2,value1,value2:int64;
h1,h2,mi1,mi2:array[0..1000005] of int64;
begin
readln(s1);
readln(s2);
p1:=100000007;
p2:=100000009;
m:=length(s1);
key1:=0;
key2:=0;
for i:=1 to m do
begin
key1:=(key1*31+ord(s1[i])-96) mod p1;
key2:=(key2*31+ord(s1[i])-96) mod p2;
end;
n:=length(s2);
h1[0]:=0; mi1[0]:=1;
h2[0]:=0; mi2[0]:=1;
for i:=1 to n do
begin
h1[i]:=(h1[i-1]*31+ord(s2[i])-96) mod p1;
h2[i]:=(h2[i-1]*31+ord(s2[i])-96) mod p2;
mi1[i]:=mi1[i-1]*31 mod p1;
mi2[i]:=mi2[i-1]*31 mod p2;
end;
ans:=0;
for i:=1 to n-m+1 do
begin
value1:=(h1[i+m-1]-h1[i-1]*mi1[m] mod p1+p1) mod p1;
value2:=(h2[i+m-1]-h2[i-1]*mi2[m] mod p2+p2) mod p2;
if (value1=key1) and (value2=key2) then inc(ans);
end;
writeln(ans);
end.

KMP替代算法——字符串Hash的更多相关文章

  1. POJ3461一道kmp题,字符串Hash也可

    题目链接:http://icpc.njust.edu.cn/Problem/Pku/3461/ 代码如下: #include<cstdio> #include<string.h> ...

  2. 【字符串算法1】 再谈字符串Hash(优雅的暴力)

    [字符串算法1] 字符串Hash(优雅的暴力) [字符串算法2]Manacher算法 [字符串算法3]KMP算法 这里将讲述  [字符串算法1] 字符串Hash 老版原文: RK哈希(Rabin_Ka ...

  3. poj 3461 字符串单串匹配--KMP或者字符串HASH

    http://poj.org/problem?id=3461 先来一发KMP算法: #include <cstdio> #include <cstring> #include ...

  4. 【原创】通俗易懂的讲解KMP算法(字符串匹配算法)及代码实现

    一.本文简介 本文的目的是简单明了的讲解KMP算法的思想及实现过程. 网上的文章的确有些杂乱,有的过浅,有的太深,希望本文对初学者是非常友好的. 其实KMP算法有一些改良版,这些是在理解KMP核心思想 ...

  5. 记录几个经典的字符串hash算法

    记录几个经典的字符串hash算法,方便以后查看: 推荐一篇文章: http://www.partow.net/programming/hashfunctions/# (1)暴雪字符串hash #inc ...

  6. HDU 5763 Another Meaning dp+字符串hash || DP+KMP

    题意:给定一个句子str,和一个单词sub,这个单词sub可以翻译成两种不同的意思,问这个句子一共能翻译成多少种不能的意思 例如:str:hehehe   sub:hehe 那么,有**he.he** ...

  7. 字符串Hash算法比较

    基本概念所谓完美哈希函数,就是指没有冲突的哈希函数,即对任意的 key1 != key2 有h(key1) != h(key2).设定义域为X,值域为Y, n=|X|,m=|Y|,那么肯定有m> ...

  8. 2020牛客暑期多校训练营 第二场 A All with Pairs 字符串hash KMP

    LINK:All with Pairs 那天下午打这个东西的时候状态极差 推这个东西都推了1个多小时 (比赛是中午考试的我很困 没睡觉直接开肝果然不爽 一开始看错匹配的位置了 以为是\(1-l\)和\ ...

  9. [知识点]字符串Hash

    1.前言 字符串的几大主要算法都多少提及过,现在来讲讲一个称不上什么算法, 但是非常常用的东西——字符串Hash. 2.Hash的概念 Hash更详细的概念不多说了,它的作用在于能够对复杂的状态进行简 ...

随机推荐

  1. php运行出现Call to undefined function curl_init()解决方法

    php运行出现Call to undefined function curl_init() 64位win7/8 下PHP不支持CURL 除了将PHP.ini中的;extension=php_curl. ...

  2. BIOS翻译

    BIOS翻译 BIOS(Basic Input/Output System—基本输入输出系统).BIOS可以视为是一个永久地记录在ROM中的一个软件 Main主要信息 :main 主要信息 advan ...

  3. 第二十三节: EF性能篇(三)之基于开源组件 Z.EntityFrameWork.Plus.EF6解决EF性能问题

    一. 开篇说明 EF的性能问题一直以来经常被人所吐槽,究其原因在于“复杂的操作在生成SQL阶段耗时长,且执行效率不高”,但并不是没有办法解决,从EF本身举几个简单的优化例子: ①:如果仅是查询数据,并 ...

  4. 深入学习CSS外边距margin(重叠效果,margin传递效果,margin:auto实现块级元素水平垂直居中效果)

    前言 margin是盒模型几个属性中一个非常特殊的属性.简单举几个例子:只有margin不显示当前元素背景,只有margin可以设置为负值,margin和宽高支持auto,以及margin具有非常奇怪 ...

  5. 深入浅出UE4网络

    UE4中的官方文档结构比较混乱,且有部分错误,不方便学习.笔者试图通过本文,整理出一篇关于UE4网络的文章,方便朋友们对UE4中的网络同步部分的认识,并有进一步理解.如有讲得不清楚明白的地方,还望批评 ...

  6. Kaldi nnet3的fastlstm与标准LSTM

    标准LSTM:             与标准LSTM相比,Kaldi的fastlstm对相同或类似的矩阵运算进行了合并.     # Component specific to 'projected ...

  7. JS获取当月第一天和最后一天

    /** * 获取当前月的第一天 */function getCurrentMonthFirst(){ var date=new Date(); date.setDate(1); return date ...

  8. Django REST Framework API Guide 06

    本节大纲 1.Validators 2.Authentication Validators 在REST框架中处理验证的大多数时间,您将仅仅依赖于缺省字段验证,或在序列化器或字段类上编写显式验证方法.但 ...

  9. radio日志sim卡信号状态分析

    logcat -b radio日志 // 接着将slot 0主卡置为false,将slot 1设置为true 08-09 11:24:40.335 2565 3243 D RILJ : [4820]& ...

  10. springBoot启动的时候动态选择装载某些bean

    最近有这样一个场景,我们使用了elasticjob lite框架,希望某些job在指定服务器不启动.让spring动态的来装载所需要的job及相关bean 这个时候可以使用@Conditional家族 ...