C++ 11哈希表已被列入标准列。hashtable这是hash_set、hash_map、hash_multiset、hash_multimap的底层机制。即这四种容器中都包括一个hashtable。


解决碰撞问题的办法有很多,线性探測、二次探測、开链等等。SGI STL的hashtable採用的开链方法,每一个hash table中的元素用vector承载,每一个元素称为桶(bucket),一个桶指向一个存储了实际元素的链表(list),链表节点(node)结构例如以下:
template <class Value>
struct __hashtable_node
{
__hashtable_node* next;
Value val; // 存储实际值
};

再来看看hash table的迭代器定义:
template <class Value, class Key, class HashFcn,
class ExtractKey, class EqualKey, class Alloc>
struct __hashtable_iterator { // 迭代器
typedef hashtable<Value, Key, HashFcn, ExtractKey, EqualKey, Alloc>
hashtable;
.... typedef __hashtable_node<Value> node; // 定义迭代器对应类型
typedef forward_iterator_tag iterator_category; // 前向迭代器
typedef Value value_type;
typedef ptrdiff_t difference_type;
typedef size_t size_type;
typedef Value& reference;
typedef Value* pointer; node* cur; // 迭代器眼下所指节点
hashtable* ht; // 和hashtable之间的纽带 __hashtable_iterator(node* n, hashtable* tab) : cur(n), ht(tab) {}
__hashtable_iterator() {}
reference operator*() const { return cur->val; }
pointer operator->() const { return &(operator*()); }
iterator& operator++();
iterator operator++(int);
bool operator==(const iterator& it) const { return cur == it.cur; }
bool operator!=(const iterator& it) const { return cur != it.cur; }
};
hash table的迭代器不能后退,这里关注迭代器的自增操作。代码例如以下:
template <class V, class K, class HF, class ExK, class EqK, class A>
__hashtable_iterator<V, K, HF, ExK, EqK, A>&
__hashtable_iterator<V, K, HF, ExK, EqK, A>::operator++() // 注意类模板成员函数的定义
{
const node* old = cur;
cur = cur->next; // 移动到下一个node
if (!cur) { // 到了list结尾
size_type bucket = ht->bkt_num(old->val); // 依据节点值定位旧节点所在桶号
while (!cur && ++bucket < ht->buckets.size()) // 计算下一个可用桶号
cur = ht->buckets[bucket]; // 找到,另cur指向新桶的第一个node
}
return *this;
}
hashtable数据结构内容非常多,这里仅仅列出少量代码:
template <class Value, class Key, class HashFcn,
class ExtractKey, class EqualKey,
class Alloc>
class hashtable { // hash table数据结构
public:
typedef Key key_type;
typedef Value value_type;
typedef HashFcn hasher; // 散列函数类型
typedef EqualKey key_equal; typedef size_t size_type;
typedef ptrdiff_t difference_type;
.... private:
hasher hash; // 散列函数
key_equal equals; // 推断键值是否相等
ExtractKey get_key; // 从节点取出键值 typedef __hashtable_node<Value> node;
typedef simple_alloc<node, Alloc> node_allocator; // 空间配置器 vector<node*,Alloc> buckets; // 桶的集合,能够看出一个桶实值上是一个node*
size_type num_elements; // node个数
....
}
SGI STL将hash table的大小,也就是vector的大小设计为28个质数,并存放在一个数组中:
static const int __stl_num_primes = 28; // 28个质数
static const unsigned long __stl_prime_list[__stl_num_primes] =
{
53, 97, 193, 389, 769,
1543, 3079, 6151, 12289, 24593,
49157, 98317, 196613, 393241, 786433,
1572869, 3145739, 6291469, 12582917, 25165843,
50331653, 100663319, 201326611, 402653189, 805306457,
1610612741, 3221225473, 4294967291
};
当vector容量不足时,会以两倍的容量进行扩充。

以下介绍插入操作。以insert_unique为例:
// 插入新元素。键值不能反复
pair<iterator, bool> insert_unique(const value_type& obj)
{
resize(num_elements + 1); // 推断vector是否须要扩充
return insert_unique_noresize(obj); // 直接插入obj
}
insert操作大致分两步:第一步是扩充(假设须要的话),第二步是插入。
resize代码例如以下:
template <class V, class K, class HF, class Ex, class Eq, class A>
void hashtable<V, K, HF, Ex, Eq, A>::resize(size_type num_elements_hint) // 推断是否须要扩充vector
{
const size_type old_n = buckets.size();
if (num_elements_hint > old_n)
{ // 元素个数大于vector容量,则须要扩充vector
const size_type n = next_size(num_elements_hint);
if (n > old_n)
{
vector<node*, A> tmp(n, (node*) 0); // 建立一个暂时的vector作为转移目的地
for (size_type bucket = 0; bucket < old_n; ++bucket)
{ // 一个桶一个桶进行转移
node* first = buckets[bucket];
while (first)
{ // 一个节点一个节点进行转移
size_type new_bucket = bkt_num(first->val, n); // 散列过程,对n取模
buckets[bucket] = first->next;
first->next = tmp[new_bucket]; // 这一句和下一句表示从链表前端插入
tmp[new_bucket] = first;
first = buckets[bucket]; // first指向旧vector的下一个node
}
buckets.swap(tmp); // 两个vector的内容互换。使buckets彻底改变
}
}
}
}
上述代码基本思路就是:先扩充,再移动。最后交换。
  • 扩充利用next_size函数。next_size的作用就是从质数表中选取最接近而且不小于num_elements_hint的质数并返回,利用这个较大值开辟一个新vector。
  • 移动实质上就是指针的移动。又一次对每一个节点进行散列,然后从前链入到新的vector中。
  • 交换过程就是上面代码红色部分。这里使用了vector内部的swap成员函数,将*this和tmp的内容进行了互换。这是copy-and-swap技术。《Effective C++》条款11有说明这个技术。扩充完vector后,就能够顺利插入须要插入的元素了。

insert_unique_noresize代码例如以下:
template <class V, class K, class HF, class Ex, class Eq, class A>
pair<typename hashtable<V, K, HF, Ex, Eq, A>::iterator, bool> // 注意,返回一个pair
hashtable<V, K, HF, Ex, Eq, A>::insert_unique_noresize(const value_type& obj) // 直接插入节点,无需扩充
{
const size_type n = bkt_num(obj); // 对obj进行散列,然后模上vector大小,从而确定桶号
node* first = buckets[n]; // first指向相应桶的第一个node for (node* cur = first; cur; cur = cur->next)
if (equals(get_key(cur->val), get_key(obj))) // 遇到同样node。则直接返回这个node
return pair<iterator, bool>(iterator(cur, this), false); // 没有遇到同样node,则在list开头插入
node* tmp = new_node(obj);
tmp->next = first;
buckets[n] = tmp;
++num_elements;
return pair<iterator, bool>(iterator(tmp, this), true);
}
这里也是将新节点插入list的开头,具体过程已在凝视中说明。



參考:
《STL源代码剖析》 P253.

版权声明:本文博客原创文章,博客,未经同意,不得转载。

【STL】关联容器 — hashtable的更多相关文章

  1. STL关联容器

    这里简单学习一下STL关联容器,主要是map.multimap.set.multiset以及unordered_map.前四个底层实现都是利用红黑树实现的,查找算法时间复杂度为\(O(log(n))\ ...

  2. STL关联容器的基本操作

    关联容器 map,set map map是一种关联式容器包含 键/值 key/value 相当于python中的字典不允许有重复的keymap 无重复,有序 Map是STL的一个关联容器,它提供一对一 ...

  3. STL关联容器总结

    有序的都不带unordered,即如下: set multiset map multimap 其中带multi的表示关键字可以重复 无序的带unordered,如下: unordered_map un ...

  4. STL关联容器值hashtable

    hashtable(散列表)是一种数据结构,在元素的插入,删除,搜索操作上具有常数平均时间复杂度O(1); hashtable名词 散列函数:负责将某一元素映射为索引. 碰撞(collision):不 ...

  5. STL 笔记(二) 关联容器 map、set、multimap 和 multimap

    STL 关联容器简单介绍 关联容器即 key-value 键值对容器,依靠 key 来存储和读取元素. 在 STL 中,有四种关联容器,各自是: map 键值对 key-value 存储,key 不可 ...

  6. STL List容器

    转载http://www.cnblogs.com/fangyukuan/archive/2010/09/21/1832364.html 各个容器有很多的相似性.先学好一个,其它的就好办了.先从基础开始 ...

  7. STL——关联式容器

    一.关联式容器 标准的STL关联式容器分为set(集合)/map(映射表)两大类,以及这两大类的衍生体multiset(多键集合)和 multimap(多键映射表).这些容器的底层机制均以RB-tre ...

  8. STL之关联容器的映射底层

    STL的关联容器有set, map, multiset, multimap.用于实现它们的底层容器有划入标准的rb_tree和待增加标准的hashtable. 底层容器rb_tree为上层容器提供了一 ...

  9. 《STL源码剖析》——第五、六:关联容器与算法

    第五章.关联容器  5.0.关联容器 标准的STL关联式容器分为set(集合)和map(映射表)两大类,以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表).这些容器的底层 ...

随机推荐

  1. storm编程指南

    目录 storm编程指南 (一)创建spout (二)创建split-bolt (三)创建wordcount-bolt (四)创建report-bolt (五)创建topo storm编程指南 @(博 ...

  2. shiro实现登录安全认证(转)

    shiro实现登录安全认证 shiro的优势,不需要再代码里面判断是否登录,是否有执行的权限,实现了从前端页面到后台代码的权限的控制非常的灵活方便 传统的登录认证方式是,从前端页面获取到用户输入的账号 ...

  3. 使用ionic3快速开发webapp(一)

    Ionic可以让我们使用web技术快速构建接近原生体验的跨平台移动应用. 一.安装ionic 1.需要先安装 Node.js(版本8.x之上): 2.安装cordova 和 ionic: $ npm ...

  4. Android(Java) 模拟登录知乎并抓取用户信息

    前不久.看到一篇文章我用爬虫一天时间"偷了"知乎一百万用户.仅仅为证明PHP是世界上最好的语言,该文章中使用的登录方式是直接复制cookie到代码中,这里呢,我不以爬信息为目的.仅 ...

  5. ios开发transform属性

    #import "ViewController.h" @interface ViewController () @property (weak, nonatomic) IBOutl ...

  6. Xcode6.3 怎样使用Leaks查看内存泄露

    Xcode -> Open Developer Tool -> Instruments : Leaks: 选择要检測的程序: 界面详情:

  7. Windows 程序启动性能优化(先载入EXE,后载入DLL,只取有限的代码载入内存,将CPU的IP指向程序的入口点)

    一.重定位链接时重定位:目标文件一般由多个节组成,编译器在编译每个目标文件时一般都是从0地址开始生成代码.当多个代码节合成一个代码段时,需要根据其在最终代码段中的位置做出调整.同时,链接器需要对已经解 ...

  8. php面试题11(边看边复习刚刚讲的)(array_multisort($arr1,$arr2); 用$arr1来排序$arr2。)

    php面试题11(边看边复习刚刚讲的)(array_multisort($arr1,$arr2); 用$arr1来排序$arr2.) 一.总结 1.边看边复习刚刚讲的 2.array_multisor ...

  9. SSL/TLS协议运行机制的概述(转)

    互联网的通信安全,建立在SSL/TLS协议之上. 本文简要介绍SSL/TLS协议的运行机制.文章的重点是设计思想和运行过程,不涉及具体的实现细节.如果想了解这方面的内容,请参阅RFC文档. 一.作用 ...

  10. 《TCP/IP具体解释卷2:实现》笔记--域和协议

    Net/3组把协议关联到一个域,而且用一个协议族常量来标识每一个域.Net/3还通过全部的编址方法将协议分组. 在一个域中 的每一个协议使用同类地址.而且每种地址仅仅被一个域使用.作为结果,一个域能通 ...