哈希与位图（Hash and BitMap）

Hash：哈希机制

BitMap：位图机制

目的：都是为了保证检索方便而设置的数据结构

　　　对于大数据进行排序，由于内存限制，不可能在内存中进行，所以采取BitMap机制

　　　 为了在大数据中快速检索以及操作数据，采取Hash机制，一方面借鉴数组的优势，一方面借鉴链表的优势。

模拟：

　　在核心引擎里面，通过这两个数据结构的合理使用，可以对硬件的结构进行模拟，比如Oracle里面的快照，JVM里面的HashMap等。

=====================================================================================================

大家都学过数据结构：

内存里面为了更好的管理对象，通常采用链表或者数据以及Hash表来存储数据。

数据存储

　　一下是数据存储到计算机的两种模式

　　线性的存储：数组---寻址方便，更新不好（连续的）

　　链式的存储: 链表----寻址不方便，更新方便。(不连续的)

　　为了提高检索的速度，我们可以采取Hash机制，key采取数据存储，方便寻址，其次我们可以利用链表方便更新数据的具体的值。

从上图我们可以发现哈希表是由数组+链表组成的，一个长度为16的数组中，每个元素存储的是一个链表的头结点。那么这些元素是按照什么样的规则存储到数组中呢。一般情况是通过hash(key)%len获得，也就是元素的key的哈希值对数组长度取模得到。比如上述哈希表中，12%16=12,28%16=12,108%16=12,140%16=12。所以12、28、108以及140都存储在数组下标为12的位置。

　　HashMap其实也是一个线性的数组实现的,所以可以理解为其存储数据的容器就是一个线性数组。这可能让我们很不解，一个线性的数组怎么实现按键值对来存取数据呢？这里HashMap有做一些处理。

　　首先HashMap里面实现一个静态内部类Entry，其重要的属性有 key , value, next，从属性key,value我们就能很明显的看出来Entry就是HashMap键值对实现的一个基础bean，我们上面说到HashMap的基础就是一个线性数组，这个数组就是Entry[]，Map里面的内容都保存在Entry[]里面。

　　好的Hash可以使数据均匀的分布，也就是说链表的长度为1.

====================================================================================================

/ 存储时:
int hash = key.hashCode(); // 这个hashCode方法这里不详述,只要理解每个key的hash是一个固定的int值
int index = hash % Entry[].length;
Entry[index] = value;

// 取值时:
int hash = key.hashCode();
int index = hash % Entry[].length;
return Entry[index];

=====================================================================================================

当哈希表的容量超过默认容量时，必须调整table的大小。当容量已经达到最大可能值时，那么该方法就将容量调整到Integer.MAX_VALUE返回，这时，需要创建一张新表，将原表的映射到新表中。

当HashMap中的元素越来越多的时候，hash冲突的几率也就越来越高，因为数组的长度是固定的。所以为了提高查询的效率，就要对HashMap的数组进行扩容，数组扩容这个操作也会出现在ArrayList中，这是一个常用的操作，而在HashMap数组扩容之后，最消耗性能的点就出现了：原数组中的数据必须重新计算其在新数组中的位置，并放进去，这就是resize。

那么HashMap什么时候进行扩容呢？当HashMap中的元素个数超过数组大小*loadFactor时，就会进行数组扩容，loadFactor的默认值为0.75，这是一个折中的取值。也就是说，默认情况下，数组大小为16，那么当HashMap中元素个数超过16*0.75=12的时候，就把数组的大小扩展为 2*16=32，即扩大一倍，然后重新计算每个元素在数组中的位置，而这是一个非常消耗性能的操作，所以如果我们已经预知HashMap中元素的个数，那么预设元素的个数能够有效的提高HashMap的性能。

=====================================================================================================

loadFactor：负载因子loadFactor定义为：散列表的实际元素数目(n)/ 散列表的容量(m)。

ashMap(int initialCapacity, float loadFactor)：以指定初始容量、指定的负载因子创建一个 HashMap。默认0.75 大小16 否则进行扩容为原来的2倍。

创建 HashMap 时指定的 initialCapacity 并不等于 HashMap 的实际容量，通常来说，HashMap 的实际容量总比 initialCapacity 大一些，除非我们指定的 initialCapacity 参数值恰好是 2 的 n 次方。当然，掌握了 HashMap 容量分配的知识之后，应该在创建 HashMap 时将 initialCapacity 参数值指定为 2 的 n 次方，这样可以减少系统的计算开销。

ArrayList扩容的size*1.5+1，之后将全部的数据拷贝到新构建的数组里面。

=====================================================================================================

哈希与位图（Hash and BitMap）的更多相关文章

哈希表（hash）详解
哈希表结构讲解: 哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度. ...
Berkeley DB的数据存储结构——哈希表（Hash Table）、B树（BTree）、队列（Queue）、记录号（Recno）
Berkeley DB的数据存储结构 BDB支持四种数据存储结构及相应算法,官方称为访问方法(Access Method),分别是哈希表(Hash Table).B树(BTree).队列(Queue) ...
纸上谈兵：哈希表（hash table）
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! HASH 哈希表(hash table)是从一个集合A到另一个集合B的映射(map ...
哈希表（Hash Table）原理及其实现
原理介绍哈希表(Hash table,也叫散列表), 是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映 ...
哈希表（Hash Table）/散列表（Key-Value）
目录 1. 哈希表的基本思想 2. 哈希表的相关基本概念 1.概念: 2.哈希表和哈希函数的标准定义: 1)冲突: 2)安全避免冲突的条件: 3)冲突不可能完全避免 4)影响冲突的因素 3. 哈希表的 ...
数据结构 -- 哈希表（hash table）
简介哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函 ...
哈希表（hash table）基础概念
哈希是什么引入:我们在学习数组的时候,使用数组元素的下标值即可访问到该元素,所花费的时间是O(1),与数组元素的个数n没有关系,这就是哈希方法的核心思想. 哈希方法:以关键值K为自变量,通过一定的函 ...
哈希表（Hash Table）
参考: Hash table - Wiki Hash table_百度百科从头到尾彻底解析Hash表算法谈谈 Hash Table 我们身边的哈希,最常见的就是perl和python里面的字典了, ...
C语言-简单哈希表（hash table）
腾讯三面的时候,叫我写了个哈希表,当时紧张没写好···结果跪了··· 回来后粪发涂墙,赶紧写了一个! 什么都不说了···先让我到厕所里面哭一会··· %>_<% 果然现场发挥,以及基础扎实 ...

随机推荐

Python 之 numpy 和 tensorflow 中的各种乘法（点乘和矩阵乘）
点乘和矩阵乘的区别: 1)点乘(即“ * ”) ---- 各个矩阵对应元素做乘法若 w 为 m* 的矩阵,x 为 m*n 的矩阵,那么通过点乘结果就会得到一个 m*n 的矩阵. 若 w 为 m*n ...
Apache2.4配置总结（转）
文章内容转自- ->https://blog.csdn.net/u012291157/article/details/46492137 1.apache开机自启动 [root@csr ~]# c ...
响应式有利于SEO还是pc+手机端分开url有利于SEO？
一早上都在查这个问题,大家都来讨论一下. 首先,可以肯定的是,如果公司推广重在谷歌,要做响应式.但是对于百度推广呢??虽然响应式是趋势,但是目前而言,对于百度怎样好呢
区间DP Zoj 3537 Cake 区间DP 最优三角形剖分
下面是别人的解题报告的链接,讲解很详细,要注意细节的处理...以及为什么可以这样做 http://blog.csdn.net/woshi250hua/article/details/7824433 我 ...
socat 广播以及多播
官方文档有一个关于组播,多播的例子挺不错,记录下多播客户端以及服务器注意地址修改为自己的网络 server socat UDP4-RECVFROM:6666,ip-add-membership=2 ...
文件上传 accept 兼容性
写法1 在chrome下有反应很慢的问题,不要使用写法2 在firefox.Safari 中有兼容性问题,弹出选择框不会高亮显示jpg后缀的图片写法3 在写法2上都添加了image/jpeg,解决 ...
jwt 的使用
jwt 是什么 ? json web token 的简称,是一种无状态的认证机制原理:客户端向服务器端请求一个 jwt 生成的 token ,这个token 带有一些信息,下次客户端 ...
安装EKL
elasticsearch rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch /etc/yum.repos.d/ela ...
Angular 4 表单校验2
1. 将表单的方法移动到单独的ts文件夹中 2. code export function mobileValidator(control: FormControl): any { const myr ...
hadoop技术入门学习之发行版选择
经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易.看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什 ...

哈希与位图（Hash and BitMap）

哈希与位图（Hash and BitMap）的更多相关文章

随机推荐

热门专题