算法打基础—

这一节主要讲很多方面非常重要的hash table等问题. 由于平时很少用到这些，基本都忘了。。。

怎样快速的在内存中插入、删除、和搜索呢？这就需要哈希表了

这一节主要知识点是：1 简单的映射表和处理冲突方法 2.哈希函数的选择 3.开放寻址法(高级解决冲突方案)

1 简单的映射表和处理冲突方法

哈希表希望解决的一个典型问题是编译器内部的符号表，它的结构是：

每个记录有一个指针x指向这个记录，key[x]就是这个记录的关键字，然后后面就是一些具体数据。

如果我们想方便得进行增删查操作，这些数据应该如何组织呢？

最简单的方法：直接寻址表

这个方法当键值得范围相对较小的时候还是能够很好工作的。假设key都是从集合U{0,1,..,m-1}中得到的。

则可以建立一个表，T[0.. m-1]

简而言之，这个表就是当k=i时，就将其放在表T中第i个位置。表的其他位置留空就行了：如下图

直接寻址法有一个明显的问题，当U的范围很大时，就必须维持一个非常大的表，且实际上用到的可能很少！

而哈希表采用的另一种方法，它通过一个hash函数来映射k值(上面那个方法可以看做identical

mapping的函数)。但是，这样就会出现不同键映射到相同槽内的方法，那应该怎么处理呢？

这里再给出一个简单方法：通过链表解决

这种方法最差情况就是所有元素都映射到了同一个槽里面，时间就是Θ(n),其实就是建了个链表

下面分析一下平均情况下链表法的性能，顺便引入一些概念：

做假设哈希函数是简单均匀哈希(simple-uniform hashing)，即每个键k 等可能的被hash到表T中的每个槽中，

且与其他键被哈希到什么位置无关

设n是表中key的个数，m是表槽的个数，定义表T的负载因子(load factor):

α = n/m = 平均每个槽中被映射的key的数量

然后给定key后，搜索成功与否的期望时间都是Θ(1+α)

2.哈希函数的选择

怎样选择一个好的hash函数呢？我们期望它具有的性质有下面两点：

一个好的hash函数应该能够将keys均匀的映射到表的槽内
键值的分布特性应该不影响这种均匀性质

选择的策略主要有两种：除法散列法乘法散列法

除法散列法：定义hash函数为 h(k) = k mod m

这种方法也有很多需要注意的：不要选有很小除数的m. 比如如果选m是个偶数，假设所有的键值都是偶数的情况下，

那么所有的映射结果都只会在偶数槽呢，非常浪费，也违背了上面好的hash函数属性的第二条

另一个极端例子:假设m=2^r,就是因子全都是最小的除数。如果k=1011000111011010，r-6,那么映射的结果

就是k的最后6位，这甚至都没有利用k的全部信息

所以这个方法中选择m的原则就是m选为质数且不能太接近2或者10的幂次

乘法散列法：设m=2^r, 计算机是w-bit 长的字，然后定义哈希函数是

h(k) = (A*k mod 2^w) rsh (w-r)

其中A是一个在（2^w-1, 2^w）范围内的奇数。

我们来分析这个哈希函数(A*k mod 2^w)这一部分就是将乘法得到的结果只取一个字长，然后再

rsh w-r位，就刚好只保留了最大是m的结果，可以很好的映射到表中.

假设m=2^3, 字长w是7-bit ,考虑那个乘法过程：

这就像一个幸运大转轮一样，将A转k圈，得到最后的一个结果：

3.开放寻址法

所谓开放寻址法就是没有任何元素时存储在哈希表之外的。那个当冲突发生时，开放寻址法通过一个探查(Probe)策略不断寻找表中的空槽

探查策略主要包括两种：线性探查双哈希探查

线性探查使用的哈希函数时：

h(k,i) = (h(k,0)+i)mod m

简单来说，就是原始哈希函数如果映射到一个已经有元素的位置，就直接探查下一个，知道找到空槽。

但是这种方法会出现primary clustering: 某一块会被依次填满，导致映射到那一块时探查时间很长

双哈希探查的哈希函数是：

h(k,i) = (h1(k)+ i*h2(k))mod m

即使用两个哈希函数，当第一次哈希出现冲突时，使用第二个哈希函数做探查，直到找到空槽。

这种方法一般效果很好，但是h2(k)必须和m互质

下面对开放寻址法进行分析：

首先我们假设均匀哈希：每个key的探查序列等可能的是m!种排列中的任意一种

定理：给定一个开放寻址的哈希表，负载因子α=n/m<1, 则不成功搜索时期望的探查次数最多是1/(1-α)

Proof: 第一次探查是有的，然后发生冲突的概率是n/m，发生冲突后就需要第二次探查了，第二次探查的

概率是(n-1)/(m-1),如此重复下去。

而我们知道n-i/m-1 < n/m =α ，所以我们有探查的期望次数是：

1+n/m(1+n-1/m-1(1+n-2/m-2(....(1+1/n-m+1)...))

≤ 1+ α(1+α(1+α(...(1+α)...))

≤1+α²+α³+....

=\( \sum_{i=0}^{INF} \alpha^i \)

=1/1-α

因为α是常数，则寻址次数也就是一个常数了。但要注意所谓的常数，比如表示半满的，则期望探查此时就是

1/(1-0.5)=2 。当90%满时，期望探查次数就是1/(1-0.9)=10

算法打基础——HashTable的更多相关文章

看动画学算法之:hashtable
目录简介散列表的关键概念数组和散列表数组的问题 hash的问题线性探测二次探测双倍散列分离链接 rehash 简介 java中和hash相关并且常用的有两个类hashTable和has ...
算法打基础——顺序统计(找第k小数)
这次主要是讲如何在线性时间下找n个元素的未排序序列中第k小的数.当然如果\(k=1 or k=n\),即找最大最小数,线性时间内遍历即可完成,当拓展到一般,如中位数时,相关算法就值得研究了.这里还要 ...
算法打基础——符号&递归解法
第二节算法复杂度分析的的基本符号及递归关系式下的复杂度解法这次的主要知识点是: 1.各种复杂度符号 2.递归复杂度解法: 分为三种替换法(猜!) 递归树法主定理 1各种复杂度符号 ...
算法打基础——HashⅡ: 全域哈希与完美哈希
这一节涉及数学超级多,各种数论知识,各种不明觉厉! 看了几遍,才勉强看懂一些,所以这篇稍微简单的介绍着两种hash table, 免得瞎说说错了. 这一讲的主要知识点是:1. 全域哈希及构造 ...
HashTable
算法打基础——HashTable 这一节主要讲很多方面非常重要的hash table等问题. 由于平时很少用到这些,基本都忘了... 怎样快速的在内存中插入.删除.和搜索呢? 这就需要哈希表了这一节 ...
HashMap与HashTable的哈希算法——JDK1.9源码阅读总结
下面是HashTable源码中的put方法: 注意上面注释标注的地方: HashTable对于元素在哈希表中的坐标算法是: 将对象自身的哈希值key.hashCode()变为正数:hash & ...
ArrayList、HashTable、List、Dictionary的演化及如何选择使用
在C#中,数组由于是固定长度的,所以常常不能满足我们开发的需求. 由于这种限制不方便,所以出现了ArrayList. ArrayList.List<T> ArrayList是可变长数组,你 ...
Java 集合系列14之 Map总结(HashMap, Hashtable, TreeMap, WeakHashMap等使用场景)
概要学完了Map的全部内容,我们再回头开开Map的框架图. 本章内容包括:第1部分 Map概括第2部分 HashMap和Hashtable异同第3部分 HashMap和WeakHashMap异同转 ...
【转】larbin中的url去重算法
1.bloom filter算法传说中,larbin使用bloom filter算法来进行url去重.那我们就先来了解下bloom filter算法好了. [以下转自:http://hi.baidu ...

随机推荐

持续集成Jenkins + robot framework + git
Jenkins + robot framework + git持续集成一.Jenkins安装插件进入系统管理—插件管理—可选插件下安装以下插件Git Client Plugin.GIT plugi ...
ASP.NET MVC+EF框架+EasyUI实现权限管理系列(1)-框架搭建
原文:ASP.NET MVC+EF框架+EasyUI实现权限管理系列(1)-框架搭建 ASP.NET MVC+EF框架+EasyUI实现权限管系列 (开篇) 前言:这篇博客开始我们便一步一步的来实现这 ...
CSDN下载频道2014年11月4日本-5日常维护公告
尊敬的用户: CSDN于2005年推出了下载服务.经过数年的发展.下载频道的用户已经为无数用户提供了帮助,分享500万的技术资源. CSDN下载频道将于2014年11月4日23点至11月5日8点进行积 ...
TCP流量控制协议
说明: 本文仅供学习交流.转载请标明出处,欢迎转载! 本文是下面文献相关内容的总结 [1] <TCP/IP具体解释卷1:协议> [2] <TCP/IP协议族第4版> [3] ...
zabbix-agent TIME_WAIT 过多
一.系统环境操作系统: Centos 6.4 64bit zabbix-agent 版本: Zabbix agent v2.2.7 (revision 50148) (24 October 2014 ...
Moq 和RhinoMocks
Moq & RhinoMocks 使用Mock对象进行测试一般都会有以下三个关键步骤: 使用接口来描述需要测试的对象为实际的产品代码实现这个接口以测试为目的,在Mock对象中实现这个接口 ...
嵌Ruby 2 《捆绑》
本章主要介绍 Ruby Object 与C++对象绑定 //====================================================================== ...
假如我来架构12306网站---文章来自csdn（Jackxin Xu IT技术专栏）
(一)概论序言: 此文的撰写始于国庆期间,当中由于工作过于繁忙而不断终止撰写,最近在设计另一个电商平台时再次萌发了完善此文并且发布此文的想法,期望自己的绵薄之力能够给予各位同行一些火花,共同推进国 ...
EasyUI的后台界面
EasyUI的后台界面搭建及极致重构〇.前言要了解一个东西长什么样,至少得让我们能看到,才能提出针对性的见解.所以,为了言之有物,而不是凭空漫谈,我们先从UI说起,后台管理页面的UI我们将使用应用 ...
Swift编程语言学习4.1——周期
Swift它提供了类似 C 流量控制结构语言,它包含运行多个任务的能力for和while周期.选择根据不同的编码分支机构的具体条件来运行if和switch声明,有控制流程跳转到其他代码break和co ...

算法打基础——HashTable

算法打基础——HashTable的更多相关文章

随机推荐

热门专题