算法打基础——HashTable
这一节主要讲很多方面非常重要的hash table等问题. 由于平时很少用到这些,基本都忘了。。。
怎样快速的在内存中插入、删除、和搜索呢? 这就需要哈希表了
这一节主要知识点是:1 简单的映射表和处理冲突方法 2.哈希函数的选择 3.开放寻址法(高级解决冲突方案)
1 简单的映射表和处理冲突方法
哈希表希望解决的一个典型问题是编译器内部的符号表,它的结构是:

每个记录有一个指针x指向这个记录,key[x]就是这个记录的关键字,然后后面就是一些具体数据。
如果我们想方便得进行增删查操作,这些数据应该如何组织呢?
最简单的方法:直接寻址表
这个方法当键值得范围相对较小的时候还是能够很好工作的。假设key都是从集合U{0,1,..,m-1}中得到的。
则可以建立一个表,T[0.. m-1]

简而言之,这个表就是当k=i时,就将其放在表T中第i个位置。表的其他位置留空就行了:如下图

直接寻址法有一个明显的问题,当U的范围很大时,就必须维持一个非常大的表,且实际上用到的可能很少!
而哈希表采用的另一种方法,它通过一个hash函数来映射k值(上面那个方法可以看做identical
mapping的函数)。 但是,这样就会出现不同键映射到相同槽内的方法,那应该怎么处理呢?
这里再给出一个简单方法:通过链表解决

这种方法最差情况就是所有元素都映射到了同一个槽里面,时间就是Θ(n),其实就是建了个链表
下面分析一下平均情况下链表法的性能,顺便引入一些概念:
做假设 哈希函数是简单均匀哈希(simple-uniform hashing),即每个键k 等可能的被hash到表T中的每个槽中,
且与其他键被哈希到什么位置无关
设n是表中key的个数,m是表槽的个数,定义表T的负载因子(load factor):
α = n/m = 平均每个槽中被映射的key的数量
然后给定key后,搜索成功与否的期望时间都是Θ(1+α)
2.哈希函数的选择
怎样选择一个好的hash函数呢?我们期望它具有的性质有下面两点:
- 一个好的hash函数应该能够将keys均匀的映射到表的槽内
- 键值的分布特性应该不影响这种均匀性质
选择的策略主要有两种:除法散列法 乘法散列法
除法散列法: 定义hash函数为 h(k) = k mod m
这种方法也有很多需要注意的: 不要选有很小除数的m. 比如如果选m是个偶数,假设所有的键值都是偶数的情况下,
那么所有的映射结果都只会在偶数槽呢,非常浪费,也违背了上面好的hash函数属性的第二条
另一个极端例子:假设m=2r,就是因子全都是最小的除数。如果k=1011000111011010,r-6,那么映射的结果
就是k的最后6位,这甚至都没有利用k的全部信息
所以这个方法中选择m的原则就是m选为质数且不能太接近2或者10的幂次
乘法散列法:设m=2r, 计算机是w-bit 长的字,然后定义哈希函数是
h(k) = (A*k mod 2w) rsh (w-r)
其中A是一个在(2w-1, 2w)范围内的奇数。
我们来分析这个哈希函数(A*k mod 2w)这一部分就是将乘法得到的结果只取一个字长 ,然后再
rsh w-r位,就刚好只保留了最大是m的结果,可以很好的映射到表中.
假设m=2^3, 字长w是7-bit ,考虑那个乘法过程:

这就像一个幸运大转轮一样,将A转k圈,得到最后的一个结果:

3.开放寻址法
所谓开放寻址法就是没有任何元素时存储在哈希表之外的。 那个当冲突发生时,开放寻址法通过一个探查(Probe)策略不断寻找表中的空槽
探查策略主要包括两种:线性探查 双哈希探查
线性探查使用的哈希函数时:
h(k,i) = (h(k,0)+i)mod m
简单来说,就是原始哈希函数如果映射到一个已经有元素的位置,就直接探查下一个,知道找到空槽。
但是这种方法会出现primary clustering: 某一块会被依次填满,导致映射到那一块时探查时间很长
双哈希探查的哈希函数是:
h(k,i) = (h1(k)+ i*h2(k))mod m
即使用两个哈希函数,当第一次哈希出现冲突时,使用第二个哈希函数做探查,直到找到空槽。
这种方法一般效果很好,但是h2(k)必须和m互质
下面对开放寻址法进行分析:
首先我们假设均匀哈希: 每个key的探查序列等可能的是m!种排列中的任意一种
定理:给定一个开放寻址的哈希表,负载因子α=n/m<1, 则不成功搜索时期望的探查次数最多是1/(1-α)
Proof: 第一次探查是有的,然后发生冲突的概率是n/m,发生冲突后就需要第二次探查了,第二次探查的
概率是(n-1)/(m-1),如此重复下去。
而我们知道n-i/m-1 < n/m =α ,所以我们有 探查的期望次数是:
1+n/m(1+n-1/m-1(1+n-2/m-2(....(1+1/n-m+1)...))
≤ 1+ α(1+α(1+α(...(1+α)...))
≤1+α2+α3+....
=\( \sum_{i=0}^{INF} \alpha^i \)
=1/1-α
因为α是常数,则寻址次数也就是一个常数了。但要注意所谓的常数,比如表示半满的,则期望探查此时就是
1/(1-0.5)=2 。 当90%满时,期望探查次数就是1/(1-0.9)=10
算法打基础——HashTable的更多相关文章
- 看动画学算法之:hashtable
目录 简介 散列表的关键概念 数组和散列表 数组的问题 hash的问题 线性探测 二次探测 双倍散列 分离链接 rehash 简介 java中和hash相关并且常用的有两个类hashTable和has ...
- 算法打基础——顺序统计(找第k小数)
这次主要是讲如何在线性时间下找n个元素的未排序序列中第k小的数.当然如果\(k=1 or k=n\),即找最大最小 数,线性时间内遍历即可完成,当拓展到一般,如中位数时,相关算法就值得研究了.这里还要 ...
- 算法打基础——符号&递归解法
第二节 算法复杂度分析的的基本符号及 递归关系式下的复杂度解法 这次的主要知识点是: 1.各种复杂度符号 2.递归复杂度解法: 分为三种 替换法(猜!) 递归树法 主定理 1各种复杂度符号 ...
- 算法打基础——HashⅡ: 全域哈希与完美哈希
这一节涉及数学超级多,各种数论知识,各种不明觉厉! 看了几遍,才勉强看懂一些,所以这 篇稍微简单的介绍着两种hash table, 免得瞎说说错了. 这一讲的主要知识点是:1. 全域哈希及构造 ...
- HashTable
算法打基础——HashTable 这一节主要讲很多方面非常重要的hash table等问题. 由于平时很少用到这些,基本都忘了... 怎样快速的在内存中插入.删除.和搜索呢? 这就需要哈希表了 这一节 ...
- HashMap与HashTable的哈希算法——JDK1.9源码阅读总结
下面是HashTable源码中的put方法: 注意上面注释标注的地方: HashTable对于元素在哈希表中的坐标算法是: 将对象自身的哈希值key.hashCode()变为正数:hash & ...
- ArrayList、HashTable、List、Dictionary的演化及如何选择使用
在C#中,数组由于是固定长度的,所以常常不能满足我们开发的需求. 由于这种限制不方便,所以出现了ArrayList. ArrayList.List<T> ArrayList是可变长数组,你 ...
- Java 集合系列14之 Map总结(HashMap, Hashtable, TreeMap, WeakHashMap等使用场景)
概要 学完了Map的全部内容,我们再回头开开Map的框架图. 本章内容包括:第1部分 Map概括第2部分 HashMap和Hashtable异同第3部分 HashMap和WeakHashMap异同 转 ...
- 【转】larbin中的url去重算法
1.bloom filter算法 传说中,larbin使用bloom filter算法来进行url去重.那我们就先来了解下bloom filter算法好了. [以下转自:http://hi.baidu ...
随机推荐
- [转载]Arguments
一.Arguments 该对象代表正在执行的函数和调用他的函数的参数. [function.]arguments[n] 参数function :选项.当前正在执行的 Function 对象的名字. n ...
- oracle_彻底删除oracle
例如ORACLE安装路径为:C:\ORACLE 实现方法: 1. 开始->设置->控制面板->管理工具->服务 停止所有Oracle服务. 2. 开始->程序->O ...
- SharePoint 2013 搜索SharePoint 特定列和特定文档(自己定义搜索)
SharePoint 2013 搜索SharePoint 特定列和特定文档 1,操作步骤和图例,因语言和版本号的不同 我尽量使用抓图方式. 2. In Central Administration, ...
- HDU 5068 Harry And Math Teacher
主题链接~~> 做题情绪:的非常高深,有种高大上的感觉. 解题思路: 两层之间的联通能够看成是一个矩阵 代表上下两层都能够联通,,代表下层第1个门与上层第一个门不联通,以此类推联通就能够用矩阵 ...
- ARM指令集中经常使用的存储和载入指令
ARM微处理器支持载入/存储指令用于在寄存器和存储器之间传送数据,载入指令用于将存储器中的数据传送到寄存器,存储指令则完毕相反的操作.经常使用的载入存储指令例如以下: - LDR 字数据载入 ...
- .NET到Node.js
从.NET到Node.js谈前后端分离实践(by vczero) 一.最初的[无分离]实践 11年末的时候,用winForm开发程序,拖拖控件,点点按钮,连接数据库,做一些基本的管理系统:Java ...
- Appium Server源码分析之作为Bootstrap客户端
Appium Server拥有两个主要的功能: 它是个http服务器,它专门接收从客户端通过基于http的REST协议发送过来的命令 他是bootstrap客户端:它接收到客户端的命令后,需要想办法把 ...
- AppiumDriver升级到2.0.0版本引发的问题--Cannot instantiate the type AppiumDriver
1. 问题描述和起因 在使用Appium1.7.0及其以下版本的时候,我们可以直接使用如下代码来创建一个AppiumDriver实例进行对安卓设备的操作. driver = new AndroidDr ...
- 安卓CTS官方文档之兼容性测试套件简介
官方英文文档原文:https://source.android.com/compatibility/cts-intro.html Compatibility Test Suite 兼容性测试套件 Ho ...
- 关于phpcms中模块_tag.class.php中的pc_tag()方法的含义
关于phpcms中模块_tag.class.php中的pc_tag()方法的含义: 在phpcms系统中自己写后台模块,要在前台模板中显示出来须要在\phpcms\modules\自定义 ...