首先对于判重,我们能想到的方法有什么呢?

1)bool数组

2)set(集)

数组与集合的优缺点

1.因为集合是对数组做的封装,所以,数组永远比任何一个集合要快。

2.数组声明了它容纳的元素的类型,而集合不声明。这是由于集合以object形式来存储它们的元素。

3.一个数组实例具有固定的大小,不能伸缩。集合则可根据需要动态改变大小。

4.数组是一种可读/可写数据结构---没有办法创建一个只读数组。

3)map(映射)  

4)hash    

因为数组,set,map的适用范围是比较小的,而且速度很慢,

所以今天我们就来研究一下hash~

哈希算法

回忆八数码问题:判重,给定一个九位数,怎么判断有没有在前面出现过?

考虑一种压缩数组的方法:如果我们想要把数组大小变为 N,那么对于一个数 X,存储在 X%N 的位置里面

这样可以完美解决空间问题。

 哈希算法 - 冲突

但存在一种情况:两个数 X 计算到了同一个位置(X%N = Y%N)

模数的确定:  

    取比元素个数大的质数
 该如何解决?

 第一种解决方式:顺序寻址法。
 一直往后查询位置,直到有空为止。

哈希算法 - 判断

那么如何判断这个数是否在之前已经出现过了呢?

类比插入过程,一直往后查询位置,直到出现两种情况之一。
-1 有空位:那就没出现过
-2 查询到一个相等的数:说明已经出现过了

哈希算法 - 顺序寻址法 - 代码实现

int hash_table[N]; // hash_table 哈希表:0 位置代表没有数
void push1(int x)
{
int y = x % N; // 计算初始位置,N:表的大小
for(; hash_table[y] && hash_table[y]!=x; ) y = (y+) % N;
// 寻找到一个 0 位置,或者找到自己为止
if(hash_table[y]) cout << x << " has␣occured␣before!" << endl;
// 如果是自己本身,则之前已经出现过了
else
{
hash_table[y] = x; // 否则,将 x 加入表中
cout << x << " inserted." << endl;
}
}

哈希算法 - 冲突 - 解决的另一种方式

但存在一种情况:两个数 X 计算到了同一个位置(X%N = Y%N)
 另一种解决方案:把所有数堆到一起(也就是用链表将模数相同的都连起来)

哈希算法 - 链地址法 - 代码实现

// 方法二:链地址法
vector<int> hash_array[N]; // hash_array:每个位置用一个 vector 来维护
void push2(int x)
{
  int y = x % N; // 计算初始位置
  for(int i=; i<hash_array[y].size(); i++)
  if(hash_array[y][i] == x) // 如果之前已经出现过了
  {
    cout << x << " has␣occured␣before!" << endl;
    return; // 标记已经出现过
  }
  // 如果之前没有出现过,将 x 加入表中
  hash_array[y].push_back(x);//vector加入操作
  cout << x << " inserted." << endl;
}

字符串哈希

十进制表示法——需要计算出所有前缀所代表的数字

上图,在S[5]存的是39618,S[4]存的是3961,S[3]存的是396,S[2]存的是96,S[1]存的是6

假如需要计算区间 [l,r]所代表的数字 X,有
    X = S[r] − S[l − 1] × 10 r−l+1

字符串哈希 - 联系

那么问题来了:数字和字符串有什么联系吗?

其实我们可以把一个字符串看作是一个特殊的数字:

对于字符串“ABABC”,我们定义它的哈希值 H 为:H = ”A” ∗ D^4 + ”B” ∗ D^3 + ”A” ∗ D^2 + ”B” ∗ D + ”C”

- 其中 D 为一个规定的数。

D在字符串全为大写或者全为小写时,范围是26~27,当字符串中既有大写又有小写时,取52

那么我们可以把字符串看作是一个D 进制的数。计算方法和数字是类似的,而且对于相同字符串,得到的结果是相同的。

字符串算法 - 代码实现

string s; // s 为字符串
int f[N], g[N]; // f 为前缀和,g[i] 为 D 的 i 次方
void prehash(int n) // 预处理哈希值
{
  // 预处理时,注意到数字可能很大,对一个数 MD 取模
  f[] = ; // f 前缀和预处理
  for(int i=; i<=n; i++) f[i] = (1LL * f[i-] * D + s[i-]) % MD;
  g[] = ; // g:D 次方预处理
  for(int i=; i<=n; i++) g[i] = 1LL * g[i-] * D % MD;
}
int hash(int l, int r) // 计算区间 [l,r] 的哈希值
{
  int a = f[r];
  int b = 1LL * f[l-] * g[r-l+] % MD; // 记得乘上次方
  return (a - b + MD) % MD; // 前缀和相减
// 有可能结果小于 0,加上一个 MD 将其变为正数
}
if(hash(a, b) == hash(c, d)) // 这就说明字符串 [a,b] 与字符串 [c,d] 匹配

字符串算法 - 几点注意事项

哈希算法:数组长度 N 用质数,减少冲突的次数,增加效率

字符串哈希:因为只是用一个小于 MD 的数来代表一个字符串,也是一种哈希;所以有可能会产生冲突(不同的字符串有相同的数),

- 可以通过前面的方法来解决:设哈希表(但速度很慢)。
- 解决方式:用质数来减少冲突的可能性;用几组不同的 D 与 MD

// 哈希算法: N 使用质数
const int N = ;
// 字符串哈希: 多用质数,不容易产生冲突
const int D = ; const int MD = 1e9 + ;
// 用几组不同的 D 与 MD
const int D2 = ; const int MD2 = 1e9 + ;

End.

【説明する】hash的更多相关文章

  1. POJOの説明

    参考URL: https://baike.baidu.com/item/POJO/3311958?fr=aladdin https://wenku.baidu.com/view/eba89bbcf12 ...

  2. 【説明する】KMP

    KMP是一个困扰我很久的算法,听老师或者是学姐讲了差不多有4次了,但是还是搞不太懂,今天终于,终于,终于搞懂了! ——2017-10-29 Vanora 首先推荐一下KMP详解——July 读罢之后内 ...

  3. 【説明する】DS

    其实就是数据结构课后题整理....只会一个是什么鬼 染色问题: 线段树? 功能太强大了! 我们并不需要那么多的功能 运用并查集!!! 将相同的并为一段 BZOJ 2375(讲真我没找到这个题在哪里.. ...

  4. 【説明する】STL

    作为C++标准不可缺少的一部分,STL应该是渗透在C++程序的角角落落里的. STL不是实验室里的宠儿,也不是程序员桌上的摆设,她的激动人心并非昙花一现. 所以今天要整理的东西就是STL!(orz 杨 ...

  5. Rails下cloud datastore的使用

      Rails下cloud datastore的使用 背景 部门有一个项目要用Ruby做 WebAPI,DB使用关系型数据库Cloud Sql和非关系型数据库Cloud Datastore . 还不了 ...

  6. RxSwiftライブラリの作り方 〜Observer/Observable編〜

    RxSwiftライブラリの作り方をご紹介します.一つの記事ですべてを説明するのは非常に厳しいので.まず Observer や Observable といった基本的なコンポーネントとその周辺について.ひ ...

  7. UbuntuでPostgreSQLをインストールからリモートアクセスまでの手順

    PostgreSQLサーバの立ち上げに少しハマりましたので.メモしておきます. OS: Ubuntu14.04 LTS インストール 最初はPostgreSQLをインストールします.普通にapt-ge ...

  8. VirtualBox 共享文件夾

    説明:host為window10,guest為centos7 一.安装VBoxLinuxAdditions 1. 在guest上挂载virtualbox安装目录下的VBoxGuestAdditions ...

  9. Ruby中字符串与正则表达式的问题

    Ruby的正则表达式为Regexp类的对象 主要的元语言字符 記号 意味 例 説明 ^ 行頭 /^abc/ abcで始まる行 $ 行末 /abc$/ abcで終わる行 . 任意の1文字 /a.b/ a ...

随机推荐

  1. 资深程序员推荐必备书籍 《C语言程序设计》

    当下,IT行业发展日趋迅猛,产值成倍增长,高薪的诱惑更是驱使许多人想要进入IT行业发展.为了使大家更全面理解C语言程序设计,由千锋教研院高教产品研发部编著.清华大学出版社倾情出版的<C语言程序设 ...

  2. VS.NET(C#)--1.4项目与解决方案

    项目与解决方案 项目 除创建网站,VS2005可创建项目.然后把项目放入解决方案中.VS2005可编译很多类型项目,分别是: 1.Windows应用程序 --在用戶计算机上运行的客户端应用程序,可显示 ...

  3. 单例模式详解以及需要注意的地方(Singleton)

    单例模式,顾名思义,就是在Java程序中只有唯一一个实例,这样做的好处是可以在不需要多个实例的对象采用单例模式可以节省内存,否则会造成不必要的内存浪费.单例模式的定义为:保证一个类只有一个实例,自己可 ...

  4. SEO基础知识

    SEO: SEO是由英文Search Engine Optimization缩写而来, 中文意译为“搜索引擎优化”!SEO是指通过对网站进行站内优化和修复(网站Web结构调整.网站内容建设.网站代码优 ...

  5. Java程序员的自我修养

    一.自我修养路线图 如图,这是笔者所走的路.且不论这路走的对不对,这个过程中行业环境会影响到你,大可不必钻牛角尖.附上这张图的目的是为了说,如果你想成为一个优秀的程序员,那么你一定要有规划.当然,别想 ...

  6. SMARTY的简单实例写法

    访问页面main.php(后台页面) <?php include("../init.inc.php"); //引入入口文件 include("../DBDA.php ...

  7. 记一次渗透某XX站

    0X00 前言 团队A师傅发来个站,问我有没有得搞 正好在搞其他的站,卡住了,开干换个思路. 0x01 信息收集 开burp抓了下包,目标设置了url重写,开了报错,我们随意输入一个控制器就直接报错. ...

  8. [LeetCode] 95. 不同的二叉搜索树 II ☆☆☆(递归,n个数组成的所有二叉搜索树)

    https://leetcode-cn.com/problems/unique-binary-search-trees-ii/solution/xiang-xi-tong-su-de-si-lu-fe ...

  9. 【leetcode】280.Wiggle Sort

    原题 Given an unsorted array nums, reorder it in-place such that nums[0] <= nums[1] >= nums[2] & ...

  10. 定制centos6.5自动安装ISO光盘

    一 ISO定制项清单 安装系统为centos6.5 (base server),安装方式为全新安装 使用ext4分区格式 安装前可以交互输入root密码,主机名,swap分区大小,之后安装过程自动化 ...