HashTable

算法打基础——HashTable

这一节主要讲很多方面非常重要的hash table等问题. 由于平时很少用到这些，基本都忘了。。。

怎样快速的在内存中插入、删除、和搜索呢？这就需要哈希表了

这一节主要知识点是：1 简单的映射表和处理冲突方法 2.哈希函数的选择 3.开放寻址法(高级解决冲突方案)

1 简单的映射表和处理冲突方法

哈希表希望解决的一个典型问题是编译器内部的符号表，它的结构是：

每个记录有一个指针x指向这个记录，key[x]就是这个记录的关键字，然后后面就是一些具体数据。

如果我们想方便得进行增删查操作，这些数据应该如何组织呢？

最简单的方法：直接寻址表

这个方法当键值得范围相对较小的时候还是能够很好工作的。假设key都是从集合U{0,1,..,m-1}中得到的。

则可以建立一个表，T[0.. m-1]

简而言之，这个表就是当k=i时，就将其放在表T中第i个位置。表的其他位置留空就行了：如下图

直接寻址法有一个明显的问题，当U的范围很大时，就必须维持一个非常大的表，且实际上用到的可能很少！

而哈希表采用的另一种方法，它通过一个hash函数来映射k值(上面那个方法可以看做identical

mapping的函数)。但是，这样就会出现不同键映射到相同槽内的方法，那应该怎么处理呢？

这里再给出一个简单方法：通过链表解决

这种方法最差情况就是所有元素都映射到了同一个槽里面，时间就是Θ(n),其实就是建了个链表

下面分析一下平均情况下链表法的性能，顺便引入一些概念：

做假设哈希函数是简单均匀哈希(simple-uniform hashing)，即每个键k 等可能的被hash到表T中的每个槽中，

且与其他键被哈希到什么位置无关

设n是表中key的个数，m是表槽的个数，定义表T的负载因子(load factor):

α = n/m = 平均每个槽中被映射的key的数量

然后给定key后，搜索成功与否的期望时间都是Θ(1+α)

2.哈希函数的选择

怎样选择一个好的hash函数呢？我们期望它具有的性质有下面两点：

一个好的hash函数应该能够将keys均匀的映射到表的槽内
键值的分布特性应该不影响这种均匀性质

选择的策略主要有两种：除法散列法乘法散列法

除法散列法：定义hash函数为 h(k) = k mod m

这种方法也有很多需要注意的：不要选有很小除数的m. 比如如果选m是个偶数，假设所有的键值都是偶数的情况下，

那么所有的映射结果都只会在偶数槽呢，非常浪费，也违背了上面好的hash函数属性的第二条

另一个极端例子:假设m=2^r,就是因子全都是最小的除数。如果k=1011000111011010，r-6,那么映射的结果

就是k的最后6位，这甚至都没有利用k的全部信息

所以这个方法中选择m的原则就是m选为质数且不能太接近2或者10的幂次

乘法散列法：设m=2^r, 计算机是w-bit 长的字，然后定义哈希函数是

h(k) = (A*k mod 2^w) rsh (w-r)

其中A是一个在（2^w-1, 2^w）范围内的奇数。

我们来分析这个哈希函数(A*k mod 2^w)这一部分就是将乘法得到的结果只取一个字长，然后再

rsh w-r位，就刚好只保留了最大是m的结果，可以很好的映射到表中.

假设m=2^3, 字长w是7-bit ,考虑那个乘法过程：

这就像一个幸运大转轮一样，将A转k圈，得到最后的一个结果：

3.开放寻址法

所谓开放寻址法就是没有任何元素时存储在哈希表之外的。那个当冲突发生时，开放寻址法通过一个探查(Probe)策略不断寻找表中的空槽

探查策略主要包括两种：线性探查双哈希探查

线性探查使用的哈希函数时：

h(k,i) = (h(k,0)+i)mod m

简单来说，就是原始哈希函数如果映射到一个已经有元素的位置，就直接探查下一个，知道找到空槽。

但是这种方法会出现primary clustering: 某一块会被依次填满，导致映射到那一块时探查时间很长

双哈希探查的哈希函数是：

h(k,i) = (h1(k)+ i*h2(k))mod m

即使用两个哈希函数，当第一次哈希出现冲突时，使用第二个哈希函数做探查，直到找到空槽。

这种方法一般效果很好，但是h2(k)必须和m互质

下面对开放寻址法进行分析：

首先我们假设均匀哈希：每个key的探查序列等可能的是m!种排列中的任意一种

定理：给定一个开放寻址的哈希表，负载因子α=n/m<1, 则不成功搜索时期望的探查次数最多是1/(1-α)

Proof: 第一次探查是有的，然后发生冲突的概率是n/m，发生冲突后就需要第二次探查了，第二次探查的

概率是(n-1)/(m-1),如此重复下去。

而我们知道n-i/m-1 < n/m =α ，所以我们有探查的期望次数是：

1+n/m(1+n-1/m-1(1+n-2/m-2(....(1+1/n-m+1)...))

≤ 1+ α(1+α(1+α(...(1+α)...))

≤1+α²+α³+....

=∑INFi=0αi

=1/1-α

因为α是常数，则寻址次数也就是一个常数了。但要注意所谓的常数，比如表示半满的，则期望探查此时就是

1/(1-0.5)=2 。当90%满时，期望探查次数就是1/(1-0.9)=10

标签: 算法基础

HashTable的更多相关文章

HashSet HashTable 与 TreeSet
HashSet<T>类 HashSet<T>类主要是设计用来做高性能集运算的,例如对两个集合求交集.并集.差集等.集合中包含一组不重复出现且无特性顺序的元素. HashSet& ...
Javascript实现HashTable类
散列算法可以尽快在数据结构中找出指定的一个值,因为可以通过Hash算法求出值的所在位置,存储和插入的时候都按照Hash算法放到指定位置. <script> function HashTab ...
Java集合专题总结（1）：HashMap 和 HashTable 源码学习和面试总结
2017年的秋招彻底结束了,感觉Java上面的最常见的集合相关的问题就是hash--系列和一些常用并发集合和队列,堆等结合算法一起考察,不完全统计,本人经历:先后百度.唯品会.58同城.新浪微博.趣分 ...
java面试题——HashMap和Hashtable 的区别
一.HashMap 和Hashtable 的区别我们先看2个类的定义 public class Hashtable extends Dictionary implements Map, Clonea ...
Map集合及与Collection的区别、HashMap和HashTable的区别、Collections、
特点:将键映射到值的对象,一个映射不能包含重复的键,每个键最多只能映射到一个值. Map集合和Collection集合的区别 Map集合:成对出现 (情侣) ...
HashTable初次体验
用惯了数组.ArryList,初次接触到HashTable.Dictionary这种字典储存对于我来说简直就是高大上. 1.到底什么是HashTable HashTable就是哈希表,和数组一样,是一 ...
HashMap和 Hashtable的比较
Hashtable 和 HashMap的比较 1. HashMap可以接受null(HashMap可以接受为null的键值(key)和值(value), HashTable不可以接受为null的键( ...
hashMap和hashTable的区别
每日总结,每天进步一点点 hashMap和hashTable的区别 1.父类:hashMap=>AbstractMap hashTable=>Dictionary 2.性能:hashMap ...
SortedList和HashTable
都是集合类,C#中同属命名空间System.Collections,“用于处理和表现类似keyvalue的键值对,其中key通常可用来快速查找,同时key是区分大小写:value用于存储对应于key的 ...
Java Hashtable的实现
先附源码: package java.util; import java.io.*; /** * This class implements a hash table, which maps keys ...

随机推荐

bigdata_hadoop集群配置_内存分配
haoop集群做好内存管理跟重要,不然经常会给抛出个 OutMemory ,内存溢出以horntonworks给出推荐配置为样本,给出一种常见的Hadoop集群上各组件的内存分配方案.配置时 ...
codeigniter 操作mysql的PHP代码--更新
支持标准前缀 1)查询没有平等,有平等的 $this->db->get_where('host',array('host'=>'ddd','id !='=>0))->ro ...
Android有效的治疗方法Bitmap，减少内存
Android有效的治疗方法Bitmap,减少内存照片可能有不同的大小. 在很多情况下,大小.比如,我们的Camera应用,我们所拍的照片的大小远大于屏幕显示的大小假如你的应用被限制了内存使用,显 ...
No bean named 'sessionFactory' is defined
1.错误叙述性说明严重:Servlet service() for servlet default threw exception . org.springframework.beans.facto ...
c++中&和&&有什么差别
他们不同点在于&&相当一个开关语句,就是说假设&&前面值为false那么他就不继续运行后面的表达式:而&无论前面的值为什么,总是运行其后面的语句. &能 ...
REUSEADDR 选项
一般而言,对于处理2MSL状态的套接字(一般为服务端套接字)是不允许接受从同一客户端重新发起一个新的连接的,但是套接字编程系统接口允许应用程序通过设置一个REUSEADDR选项,使处于2MSL状态的套 ...
applet授权数字签名
一.压缩你的class类文件为jar包 1.如果你的须要压缩的类文件存在的包为:cn.mbq.test1和cn.mbq.test2 2.进入你的classes文件夹,在DOS窗体中运行命令:jar c ...
Linux经常使用命令(一) - ls
ls命令是linux下最经常使用的命令.ls命令就是list的缩写, 缺省下ls用来打印出当前文件夹的清单, 假设ls指定其它文件夹, 那么就会显示指定文件夹里的文件及文件夹清单. 通过ls 命令不仅 ...
inux上iptables防火墙的基本应用教程
iptables是Linux上常用的防火墙软件,下面vps侦探给大家说一下iptables的安装.清除iptables规则.iptables只开放指定端口.iptables屏蔽指定ip.ip段及解封. ...
仿JQ插件
<!DOCTYPE html> <html> <head> <title></title> <style type=& ...

HashTable

HashTable的更多相关文章

随机推荐

热门专题