散列表(hashtable)是一种高效的词典结构,可以在期望的常数时间内实现对词典的所有接口的操作。散列完全摒弃了关键码有序的条件,所以可以突破CBA式算法的复杂度界限。

散列表

逻辑上,有一系列可以存放词条的单元(桶)组成。各个桶按照逻辑次序,在物理上也应当是连续的,因而,可以采用数组来实现,散列表也可以称为桶数组。合法的秩空间[0,R)也可以称作地址空间。

散列函数

散列,即为关键码空间到桶地址空间的映射,hash():key->hash(key)

假设学号为2013300000-2013303999,一个长度为4000的散列表A[0-3999],只需要hash(key)=key-2013300000,即可实现没有空余也没有重复的散列,称为完美散列。

实际上,完美散列是非常困难的,比如,一个电话号码为7位,而一个单位的电话为几千个,此时按照这种映射,仍然需要10^7次方规模的桶数组。定义装填因子为非空桶/桶的总数,此时的利用率非常低。

因此,制定合理的映射,是非常重要的。散列函数的选取,在计算上应当尽量简单,关键码经过映射后尽量占据整个地址空间,并且映射到各个桶的概率应当接近于1/M。简单的散列函数策略有几种:

(1)除余法:hash(key)=key mod M。显然,如此简单的策略会造成很大的问题,随机性并不好而且容易冲突。

(2)MAD法:multiple-add-divide,hash(key)=(a*key+b) mod M。可以看到,除余法是a=1,b=0的特例。相当于是一种线性方法。

(3)数字分析法:从key的特定进制展开中取出特定的若干位。

还有平方取中法、折叠法异或法等...实现的时候为了简单,可以采用随机数法,不过不同的语言和平台随机数的实现方式可能不同,需谨慎。

 template<typename K, typename V> class Hashtable :public Dictionary<K, V>
{
private:
Entry<K, V>** ht;//桶数组,存放词条指针
int M;//桶数组的数量
int N;//词条的数量
Bitmap* lazyRemoval;//懒惰删除标记
#define lazilyRemoved(x) (lazyRemoval->test(x))
#define markAsRemoved(x) (lazyRemoval->set(x))
protected:
int probe4Hit(const K& k);//沿关键码k对应的查找链,找到词条匹配的桶
int probe4Free(const K& k);//沿关键码k对应的查找链,找到首个可用的桶
void rehash();//重散列算法:扩充桶数组,保证装填因子的警戒线之下
public:
Hashtable(int c = );//创建一个容量不小于c的散列表
~Hashtable();//释放桶数组及其中各元素所指向的词条
int size() const { return N; }
bool put(K k, V v);
V* get(K k);
bool remove(K k);
};

散列表的实现,内部主要是维护一个桶数组,外部接口即为词典的接口。

 template<typename K, typename V> Hashtable<K, V>::Hashtable(int c)
{
M = primeNLT(c,,"prime.txt");//不小于c的素数,应当计算好后列表备查
N = ;
ht = new Entry<K, V>*[M];
memset(ht, , sizeof(Entry<K, V>*) * M);
lazyRemoval = new Bitmap(M);
}
int primeNLT(int c, int n, std::string file)//查找素数
{
Bitmap b(n);
std::ifstream ifile(file);
int num;
while (ifile >> num)
b.set(num);
while (c < n)
if (!b.test(c)) c++;//若当前位为0,继续寻找
else
return c;
return ;
}

这里实现的策略,是从事先计算好的文件中选取一个素数作为桶的初始数量。

 template<typename K, typename V> Hashtable<K, V>::~Hashtable()
{
for (int i = ; i < M; i++)
if (ht[i]) delete ht[i];//释放非空的桶
delete ht;
delete lazyRemoval;
}

析构函数要注意,释放掉非空的桶以及用来标记的位图结构。

冲突

散列表的一个很大问题,就是冲突。因为散列的基本思想,就是通过快速把key转换为一个秩,从而可以迅速进行查询、插入和删除这样的词典操作。但是,即使把桶数组设置地非常大,或者选择特别合适的哈希函数,也非常有可能造成冲突,即hash(key1)=hash(key2)。此时,后一个词条插入的时候,对应的已经被占用了。因此,必须采用一种办法,化解这种冲突。常见的冲突排解方法有几种:

(1)多槽位法。把一组冲突的词条设置为一个小规模的词典,分别存放在对应的桶单元中。一种简单的方法,把每个桶细分为小的槽位,比如用向量或者列表来实现。这种方法的缺陷显而易见,很多槽位是空着的,利用率很低。

(2)独立链法。与多槽位法类似,不过把每组冲突的词条组织为一个链表的形式。这种方法的缺点在于,查找冲突的时候需要遍历整个链表。

(3)公共溢出区法。在原来的散列之外另设置一个词典,插入冲突时就转存到其中。

闭散列

说了那么多,最后还是要采用一种别的方法0 0闭散列的方法,就是充分利用散列表中的空桶,桶地址对于散列中的其他桶是开放的,散列内部与外界是封闭的。具体地,采用查找链的方法。最简单的就是线性试探,每次冲突的时候,在后继中查找最近的空桶,第i次试探的桶单元为(hash(key)+i) mod M。这种方法也存在较大的缺陷,容易局部聚集从而加长查找的长度,可以采用平方试探法等方法改进。

这种线性查找的方法,可能会因为多个相邻的冲突词条,而产生彼此的交替,在这种情况下,查找的长度也会增大。如果删除了其中的元素,查找链会断裂,从而影响到其他词条的查询。一种解决的办法是懒惰删除,即删除一个元素后,用位图结构来标记,删除掉实际的词条。这样,在实际的查找过程中,无论桶是否空,只要标记存在,就可以继续向下进行查找。基于线性试探的策略如下:

 template<typename K, typename V> V* Hashtable<K, V>::get(K k)
{
int r = probe4Hit(k);
return ht[r] ? &(ht[r]->value) : NULL;
}
template<typename K, typename V> int Hashtable<K, V>::probe4Hit(const K& k)//寻找匹配的桶
{
int r = hashCode(k) % M;
while ((ht[r] && (k != ht[r]->key)) || (!ht[r] && lazilyRemoval(r)))//冲突,或者桶为空但是标记过
r = (r + ) % M;//沿着查找链试探
return r;
}
template<typename K, typename V> bool Hashtable<K, V>::remove(K k)
{
int r = probe4Hit(k); if (!ht[r])return false;//如果词条不存在无法删除
delete ht[r]; ht[r] = NULL; markAsRemoved(r); N--;
return true;
}

对于插入操作,需要先寻找一个合适的空桶,如果没有空桶,那么需要重新分配一个哈希表。为了保证效率,规定装填因子不超过1/2。

 template<typename K, typename V> bool Hashtable<K, V>::put(K k, V v)
{
if (ht[probe4Hit(k)]) return false;
int r = probe4Free(k);//寻找空桶(控制装填因子,故必然成功)
ht[r] = new Entry<K, V>(k, v); ++N;//懒惰删除标志无需复位
if (N * > M) rehash();//装填因子小于0.5重散列
return true;
}
template<typename K, typename V> int Hashtable<K, V>::probe4Free(const K& k)
{
int r = hashCode(k) % M;//除余法确定起始桶
while (ht[r]) r = (r + ) % M;//沿着查找链直到首个空桶(无论是否带有懒惰删除标记)
return r;
}
template<typename K, typename V> void Hashtable<K, V>::rehash()
{
int old_capacity = M;//记录之前的桶数
Entry<K, V>** old_ht = ht;
M = primeNLT( * M, , "prime.txt");//容量加倍
N = ; ht = new Entry<K, V>*[M]; memset(ht, , sizeof(Entry<K, V>*)*M);
delete lazyRemoval; lazyRemoval = new Bitmap(M);//新申请一个位图
for (int i = ; i < old_capacity; i++)
if (old_ht[i])
put(old_ht[i]->key, old_ht[i]->value);
delete[] old_ht;
}

rehash()的策略并不复杂,其实就是重新分配一个数组,并把原来的数组转移到其中,再释放掉之前的数组。

最后,因为key不可能总数整数,因此,需要把char double long等等类型转换为hashcode,方法有很多,在此不表0 0

在介绍理论的最后0 0哈希函数的选择以闭策略的选择都有很多,其实只要弄懂散列的思想以及实现就可以了,细节的方法,各种语言都有自己的哈希表,甚至好多种...

散列的应用

没刷过题,就先搬运下书上的几个例子吧。

桶排序

桶排序可以打破CBA式排序理论上nlogn的界限。通过哈希的策略,通过独立链构建方法,即可实现基于哈希的排序。具体操作,即使用最简单的哈希函数hash(key)=key,把数字存入相应的桶,然后再从头到尾输出桶数组即可。只需要遍历数字一遍,常数时间计算hash(key),再遍历输出一遍即可,复杂度为O(n)。

基数排序

假设一组词条采用字典序等方式排序,比如英文词典。这时,只需要用多趟桶排序即可完成。具体地,从优先级最低的位开始进行桶排序,排序后的结果再按照优先级的顺序,知道最后一趟排序完,结果即为所需。具体的证明就忽略了...复杂度为O(t*(n+M)),其中M为各个字段的取值范围的最大值,t为趟数。

词典(二) 哈希表(Hash table)的更多相关文章

  1. 算法与数据结构基础 - 哈希表(Hash Table)

    Hash Table基础 哈希表(Hash Table)是常用的数据结构,其运用哈希函数(hash function)实现映射,内部使用开放定址.拉链法等方式解决哈希冲突,使得读写时间复杂度平均为O( ...

  2. PHP关联数组和哈希表(hash table) 未指定

    PHP有数据的一个非常重要的一类,就是关联数组.又称为哈希表(hash table),是一种很好用的数据结构. 在程序中.我们可能会遇到须要消重的问题,举一个最简单的模型: 有一份username列表 ...

  3. 什么叫哈希表(Hash Table)

    散列表(也叫哈希表),是根据关键码值直接进行访问的数据结构,也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列函数,存放记录的数组叫做散列表. - 数据结构 ...

  4. 数据结构 哈希表(Hash Table)_哈希概述

    哈希表支持一种最有效的检索方法:散列. 从根来上说,一个哈希表包含一个数组,通过特殊的索引值(键)来访问数组中的元素. 哈希表的主要思想是通过一个哈希函数,在所有可能的键与槽位之间建立一张映射表.哈希 ...

  5. 哈希表(Hash table)

  6. Redis原理再学习04:数据结构-哈希表hash表(dict字典)

    哈希函数简介 哈希函数(hash function),又叫散列函数,哈希算法.散列函数把数据"压缩"成摘要,有的也叫"指纹",它使数据量变小且数据格式大小也固定 ...

  7. 哈希表(Hash)的应用

    $hs=@() #定义数组 $hs=@{} #定义Hash表,使用哈希表的键可以直接访问对应的值,如 $hs["王五"] 或者 $hs.王五 的值为 75 $hs=@''@ #定义 ...

  8. Hash表 hash table 又名散列表

    直接进去主题好了. 什么是哈希表? 哈希表(Hash table,也叫散列表),是根据key而直接进行访问的数据结构.也就是说,它通过把key映射到表中一个位置来访问记录,以加快查找的速度.这个映射函 ...

  9. 词典(一) 跳转表(Skip table)

    词典,顾名思义,就是通过关键码来查询的结构.二叉搜索树也可以作为词典,不过各种BST,如AVL树.B-树.红黑树.伸展树,结构和操作比较复杂,而且理论上插入和删除都需要O(logn)的复杂度. 在词典 ...

随机推荐

  1. 原生JS版和jQuery 版实现文件上传功能

    <!doctype html> <html lang="zh"> <head> <meta charset="utf-8&quo ...

  2. Android BottomSheet:List列表或Grid网格展示(3)

     Android BottomSheet:List列表或Grid网格展示(3) BottomSheet可以显示多种样式的底部弹出面板风格,比如常见的List列表样式或者Grid网格样式,以一个例子 ...

  3. 第五章、 Linux 常用網路指令

    http://linux.vbird.org/linux_server/0140networkcommand.php     第五章. Linux 常用網路指令 切換解析度為 800x600 最近更新 ...

  4. 【莫比乌斯反演+树状数组+分块求和】GCD Array

    https://www.bnuoj.com/v3/contest_show.php?cid=9149#problem/I [题意] 给定长度为l的一个数组,初始值为0:规定了两种操作: [思路] 找到 ...

  5. [NOIP2005] 普及组 循环

    陶陶摘苹果 校门外的树 采药 以上三道都不是重点 循环 题目描述 乐乐是一个聪明而又勤奋好学的孩子.他总喜欢探求事物的规律.一天,他突然对数的正整数次幂产生了兴趣. 众所周知,2的正整数次幂最后一位数 ...

  6. 2017-10-03-morning

    #include <algorithm> #include <cstring> #include <cstdio> inline void read(int &am ...

  7. 中高级前端应该必会,js实现事件委托代理、切换样式、元素获取相对于文档位置等

    1.介绍 随着组件开发大流行,现在三大框架已经基本占领了整个前端. 这时候,我们要是引入一个 jq 是不是先得你的项目非常臃肿,jq 也很不适合. 这个时候,你就需要来增加你 js 的功底. 2.各种 ...

  8. linux 虚拟网卡

    linux中可以通过一个物理网卡,模拟出多个虚拟网卡,并在网卡中配置ip. 下面做一个实验. 实验描述: 我们有server A (ip 10.79.148.205),server B (10.79. ...

  9. 在HTML中显示图片时希望如果图片不存在或者无法显示时,能够显示默认图片

    很多时候,在HTML中显示图片时希望如果图片不存在或者无法显示时,能够显示默认图片.可以通过以下方式: <img src="xxx.jpg" onError="th ...

  10. SAS编程基础 - 数据获取与数据集操作(1)

    1. 数据来源 SAS数据来源主要有两种:一是通过input语句创建,另外一种方式是通过外部数据文件获取. 1.1 libname 1.2 odbc 1.3 passthrough 1.4 impor ...