简单介绍一下字符串hash

相信大家对于hash都不陌生

翻译过来就是搞砸,乱搞的意思嘛

hash算法广泛应用于计算机的各类领域,像什么md5,文件效验,磁力链接 等等都会用到hash算法

在信息学奥赛中,hash算法主要应用于搜索状态判重,字符串的比较等

hash的主要思想是:对于一个空间、时间需求较大的状态,在一定错误率的基础上进行状态压缩,降低其时间、空间的需求量

对于字符串hash来说,就是把一串字符串压缩成一个hash值,方便我们进行数据的处理

接下来我们重点讲一下字符串hash的实现方法

实现方法

思想

在信息学奥赛中,使用最广泛的算法叫做:BKDR Hash

它的核心思想是:

对于一个字符串,选取恰当的进制,将一个字符串看做是一个大整数

(众人:***,你这是要让我们写高精啊)

然后再对一个随便什么数取模就可以啦

当然这个“恰当的进制”和“随便什么数”是有讲究的

根据砖家的研究:

进制一般选择大于字符串中的最大的字符且不含模数的值因子的数

比如说,如果你是对一串小写字母做字符串hash,那么131这个进制就是不错的选择

而“随便什么数”有三种方法

  1. 选择两个模数,判断的时候只有两个hash值都相同才算相同
  2. 选择一个大质数,像11111111111111111111111或者212370440130137957
  3. 用unsigned long long 自然溢出

注意:尽量不要只用一个较小的质数,根据生日悖论,很容易被卡

代码

代码实现比较简单

https://www.luogu.org/problemnew/show/3370

  • unsigned long long 自然溢出
 #include<iostream>
#include<cstdio>
#include<cstring>
#include<cmath>
#include<cstring>
#include<algorithm>
#include<map>
#define lli long long int
using namespace std;
const int MAXN=;
int seed=;
void read(int &n)
{
char c='+';int x=;bool flag=;
while(c<''||c>''){c=getchar();if(c=='-')flag=;}
while(c>=''&&c<='')x=x*+c-,c=getchar();
n=flag==?-x:x;
}
char a[MAXN];
map<long long ,bool>happen;
int tot=;
int main()
{
int n;
read(n);
for(int i=;i<=n;i++)
{
unsigned long long base=;
scanf("%s",a);
for(int j=;j<strlen(a);j++)
base=base*seed+(a[j]);
if(!happen[base])
happen[base]=,tot++;
}
printf("%d",tot);
return ;
}

ull

  • 双hash
 #include<cstdio>
#include<cstring>
#include<algorithm>
#define ull unsigned long long
using namespace std;
const int MAXN=2e7+;
const int mod1=;
const int mod2=;
const int seed=;
const int seed2=;
int n;
struct node
{
char s[];
int h1,h2,l;
}a[];
ull gethash1(char *s,int l)
{
ull ans=;
for(int i=;i<=l;i++)
ans=(ans*seed+(ull)s[i])%mod1;
return ans; }
ull gethash2(char *s,int l)
{
ull ans=;
for(int i=;i<=l;i++)
ans=(ans*seed2+(ull)s[i])%mod2;
return ans;
}
int hash1[MAXN],hash2[MAXN];
int main()
{
scanf("%d",&n);
for(int i=;i<=n;i++)
{
scanf("%s",a[i].s+);
a[i].l=strlen(a[i].s+);
}
for(int i=;i<=n;i++)
{
a[i].h1=gethash1(a[i].s,a[i].l)%mod1;
a[i].h2=gethash2(a[i].s,a[i].l)%mod2;
}
int ans=;
for(int i=;i<=n;i++)
if(hash1[a[i].h1]==||hash2[a[i].h2]==)
hash1[a[i].h1]=,hash2[a[i].h2]=,ans++;
printf("%d",ans);
return ;
}

双hash

  • 大质数hash
 #include<iostream>
#include<cstdio>
#include<cstring>
#include<cmath>
#include<cstring>
#include<algorithm>
#include<map>
#define lli long long int
using namespace std;
const int MAXN=;
const long long int mod=;
int seed=;
void read(int &n)
{
char c='+';int x=;bool flag=;
while(c<''||c>''){c=getchar();if(c=='-')flag=;}
while(c>=''&&c<='')x=x*+c-,c=getchar();
n=flag==?-x:x;
}
char a[MAXN];
map<int,bool>happen;
int tot=;
int main()
{
int n;
read(n);
for(int i=;i<=n;i++)
{
long long base=;
scanf("%s",a);
int la=strlen(a);
for(int j=;j<la;j++)
base=(base*seed+(a[j]) )%mod;
if(!happen[base])
happen[base]=,tot++;
}
printf("%d",tot);
return ;
}

大质数

特别注意:在循环的时候,不要写: for(int j=;j<strlen(a);j++) !!!!因为strlen的复杂度是$O(n^2)$,数据稍微一大你就会被卡T

正确的姿势是把长度记录下来 int la=strlen(a); for(int j=;j<la;j++)

常用技巧:区间hash值

在进行字符串hash的时候,我们经常会用到某一段的hash值

这时候怎么办呢?

假设我们已经得到了$hash[1-r]$

那么$hash[l-r]=hash[r]-seed^{r-l+1}*hash[l - 1]$(seed表示进制)

举个例子

$hash[1]=a1$

$hash[2]=a1*base+a_2$

$hash[3]=(a_1*seed+a_2)*seed+a_3=a_1*seed^2+a_2*seed+a_3$

$hash[4]=[(a[1*seed+a_2)*seed+a_3]*seed+a_4=a1*seed^3+a2*seed^2+a_3*seed+a_4$

$hash[3-4]=hash[4]-base^{2}*hash[2]=a_3*seed+a_4$

很明显可以看出这个公式是对的

最好自己手写一下,这样才能体会到其中的奥妙

经典题目

洛谷 P3370 【模板】字符串哈希

必做练手题,代码已经在上面给出了

洛谷 P3375 【模板】KMP字符串匹配

这道题可以用字符串hash水过

http://www.cnblogs.com/zwfymqz/p/7793347.html

洛谷P2264 情书

这道题理论上是可以用字符串hash做的

但是我只水到90分,各位神犇可以尝试一下

http://www.cnblogs.com/zwfymqz/p/7355159.html

BZOJ 3555: [Ctsc2014]企鹅QQ

略有难度

http://www.cnblogs.com/zwfymqz/p/7349658.html

洛谷P3823 蚯蚓排队

其他经典应用

以下内容来自远航之曲大神,在此表示衷心的感谢

1、kmp

问题:给两个字符串S1,S2,求S2是否是S1的子串,并求S2在S1中出现的次数

把S2 Hash出来,在S1里找所有长度为$|S2|$的子串,Hash比较。效率$O(|S1|)$

2、AC自动机

问题:给N个单词串,和一个文章串,求每个单词串是否是文章串的子串,并求每个单词在文章中出现的次数。

把每一个单词hash成整数,再把文章的每一个子串hash成整数,接下来只需要进行整数上的查找即可。

复杂度:$O(|A|2+|S|)$

用AC自动机可以做到$O(|A|+|S|)$的复杂度,|S|是单词串总长,$|A|$是文章长度

3、后缀数组

问题:给两个字符串S1,S2,求它们的最长公共子串的长度。

将S1的每一个子串都hash成一个整数,将S2的每一个子串都hash成一个整数

两堆整数,相同的配对,并且找到所表示的字符串长度最大的即可。

复杂度:$O(|S1|2+|S2|2)$

用后缀数组可以优化到$O(|S|log|S|)$

4、马拉车

问题:给一个字符串S,求S的最长回文子串。

先求子串长度位奇数的,再求偶数的。枚举回文子串的中心位置,然后二分子串的长度,直到找到一个该位置的最长回文子串,不断维护长度最大值即可。

复杂度:$O(|S|log|S|)$

用manacher可以做到$O(|S|)$的复杂度

5、扩展kmp

问题:给一个字符串S,求S的每个后缀与S的最长公共前缀

枚举每一个后缀的起始位置,二分长度,求出每个后缀与S的最长公共前缀。

复杂度:$O(|S|log|S|)$

用extend-kmp可以做到$O(|S|)$的复杂度

总结

字符串hash是一个非常优秀的算法。

希望大家能够熟练的掌握&&运用

说不定它可以在你写不出正解的时候帮你得很多分呢?

字符串hash入门的更多相关文章

  1. bzoj 2803 [Poi2012]Prefixuffix 兼字符串hash入门

    打cf的时候遇到的问题,clairs告诉我这是POI2012 的原题..原谅我菜没写过..于是拐过来写这道题并且学了下string hash.   字符串hash基于Rabin-Karp算法,并且对于 ...

  2. HDU 1880 字符串hash 入门题

    Problem Description 哈利波特在魔法学校的必修课之一就是学习魔咒.据说魔法世界有100000种不同的魔咒,哈利很难全部记住,但是为了对抗强敌,他必须在危急时刻能够调用任何一个需要的魔 ...

  3. (通俗易懂小白入门)字符串Hash+map判重——暴力且优雅

    字符串Hash 今天我们要讲解的是用于处理字符串匹配查重的一个算法,当我们处理一些问题如给出10000个字符串输出其中不同的个数,或者给一个长度100000的字符串,找出其中相同的字符串有多少个(这样 ...

  4. hash进阶:使用字符串hash乱搞的姿势

    前言 此文主要介绍hash的各种乱搞方法,hash入门请参照我之前这篇文章 不好意思hash真的可以为所欲为 在开头先放一下题表(其实就是我题解中的hash题目qwq) 查询子串hash值 必备的入门 ...

  5. [知识点]字符串Hash

    1.前言 字符串的几大主要算法都多少提及过,现在来讲讲一个称不上什么算法, 但是非常常用的东西——字符串Hash. 2.Hash的概念 Hash更详细的概念不多说了,它的作用在于能够对复杂的状态进行简 ...

  6. 【BZOJ-3555】企鹅QQ 字符串Hash

    3555: [Ctsc2014]企鹅QQ Time Limit: 20 Sec  Memory Limit: 256 MBSubmit: 1545  Solved: 593[Submit][Statu ...

  7. POJ 1200 字符串HASH

    题目链接:http://poj.org/problem?id=1200 题意:给定一个字符串,字符串只有NC个不同的字符,问这个字符串所有长度为N的子串有多少个不相同. 思路:字符串HASH,因为只有 ...

  8. LA4671 K-neighbor substrings(FFT + 字符串Hash)

    题目 Source http://acm.hust.edu.cn/vjudge/problem/19225 Description The Hamming distance between two s ...

  9. 各种字符串Hash函数比较(转)

    常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法.这些函数使用位运算使得每一个字符都对最后的函数值产生影响.另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎 ...

随机推荐

  1. ARVE: Augmented Reality Applications in Vehicle to Edge Networks

    ARVE:车辆到边缘网中的增强现实应用 本文为SIGCOMM 2018 Workshop (Mobile Edge Communications, MECOMM)论文. 笔者翻译了该论文.由于时间仓促 ...

  2. SQL DISTINCT去掉重复的数据统计方法【转】

    SELECT指令让我们能够读取表格中一个或数个栏位的所有资料.这将把所有的资料都抓出,无论资料值有无重复.在资料处理中,我们会经常碰到需要找出表格内的不同资料值的情况.换句话说,我们需要知道这个表格/ ...

  3. NP-Completeness理解

    今天大年初一,哪里也没去,在家里重新看了下IOA的NP问题.感觉看明白了. 首先定义下: 所谓P问题是指所有能在多项式复杂度解决的问题,比如排序算法,n*n复杂度解决问题. 有些问题目前没有多项式复杂 ...

  4. Centos7-驱动小米WIFI做AP

    参考文章: http://blog.csdn.net/sumang_87/article/details/38168877 http://blog.csdn.net/hktkfly6/article/ ...

  5. 【RL-TCPnet网络教程】第26章 RL-TCPnet之DHCP应用

    第26章     RL-TCPnet之DHCP应用 本章节为大家讲解RL-TCPnet的DHCP应用,学习本章节前,务必要优先学习第25章的DHCP基础知识.有了这些基础知识之后,再搞本章节会有事半功 ...

  6. Dubbo工作原理,集群容错,负载均衡

    Remoting:网络通信框架,实现了sync-over-async和request-response消息机制. RPC:一个远程过程调用的抽象,支持负载均衡.容灾和集群功能. Registry:服务 ...

  7. 超有料丨小白如何成功逆袭为年薪30万的Web安全工程师

    今天的文章是一篇超实用的学习指南,尤其是对于即将毕业的学生,新入职场的菜鸟,对Web安全感兴趣的小白,真的非常nice,希望大家能够好好阅读,真的可以让你少走很多弯路,至少年薪30万so easy! ...

  8. 这月薪过万的Java高级学习资料,难得一遇的干货,不下载真可惜了!

    大家有没有想我呢 不管你们想不想我 我挺想你们的 通过昨天我不断的 死气白咧各种说好话 最终 要到了Java学科的Java集合学习资料 里面包含视频+资料+源码 堂兄也有一个愿望 希望你们月薪过万后 ...

  9. laytpl模板——怎么使用ajax与数据交互

    第一次在项目中用laytpl模板,下面是一些使用过程中的探索,希望对小伙伴们有所帮助. 注:第一次使用这个模板的小伙伴建议先去看看官网 laytpl <script type="tex ...

  10. [Swift]LeetCode165. 比较版本号 | Compare Version Numbers

    Compare two version numbers version1 and version2.If version1 > version2 return 1; if version1 &l ...