Java基础知识强化之集合框架笔记79：HashMap的实现原理

1. HashMap的实现原理之 HashMap数据结构：

HashMap是对数据结构中哈希表(Hash Table)的实现， Hash表又叫散列表。Hash表是根据关键码Key来访问其对应的值Value的数据结构。

它通过一个映射函数把关键码Key映射到Hash表中一个位置来访问该位置的值Value，从而加快查找的速度。这个映射函数叫做Hash函数，存放记录的数组叫做Hash表。

在Java中，HashMap的内部实现结合了链表和数组的优势，链接节点的数据结构是Entry<k,v>，每个Entry对象的内部又含有指向下一个Entry类型对象的引用，如以下代码所示：

 static class Entry<K,V> implements Map.Entry<K,V> {

       final K key;

       V value;

       Entry<K,V> next; //Entry类型内部有一个自己类型的引用，指向下一个Entry

       final int hash;

       ...

 }

哈希表有多种不同的实现方法，我接下来解释的是最常用的一种方法--- 拉链法，我们可以理解为"链表的数组" ，如图：

2. HashMap的实现原理之 HashMap的存取实现：

既然是线性数组，为什么能随机存取？这里HashMap用了一个小算法，大致是这样实现：

 // 存储时:

 int hash = key.hashCode(); // 这个hashCode方法这里不详述,只要理解每个key的hash是一个固定的int值

 int index = hash % Entry[].length;

 Entry[index] = value;

 // 取值时:

 int hash = key.hashCode();

 int index = hash % Entry[].length;

 return Entry[index];

（1）put

疑问：如果两个key通过hash%Entry[].length得到的index相同，会不会有覆盖的危险？

　　这里HashMap里面用到链式数据结构的一个概念。上面我们提到过Entry类里面有一个next属性，作用是指向下一个Entry。打个比方，第一个键值对A进来，通过计算其key的hash得到的index=0，记做:Entry[0] = A。一会后又进来一个键值对B，通过计算其index也等于0，现在怎么办？HashMap会这样做:B.next = A，Entry[0] = B,如果又进来C，index也等于0，那么C.next = B,Entry[0] = C；这样我们发现index=0的地方其实存取了A，B，C三个键值对,他们通过next这个属性链接在一起。所以疑问不用担心。也就是说数组中存储的是最后插入的元素，HashMap同一index下使用头插法（每次插入数据，从链头部插入）。

到这里为止，HashMap的大致实现，我们应该已经清楚了。

 public V put(K key, V value) {

        if (key == null)

            return putForNullKey(value); //null总是放在数组的第一个链表中

        int hash = hash(key.hashCode());

        int i = indexFor(hash, table.length);

        //遍历链表

        for (Entry<K,V> e = table[i]; e != null; e = e.next) {

            Object k;

            //如果key在链表中已存在，则替换为新value

            if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {

                V oldValue = e.value;

                e.value = value;

                e.recordAccess(this);

                return oldValue;

            }

        }

        modCount++;

        addEntry(hash, key, value, i);

        return null;

    }

void addEntry(int hash, K key, V value, int bucketIndex) {

    Entry<K,V> e = table[bucketIndex];

    table[bucketIndex] = new Entry<K,V>(hash, key, value, e); //参数e, 是Entry.next

//如果size超过threshold，则扩充table大小。再散列

    if (size++ >= threshold)

            resize(2 * table.length);

}

　　当然HashMap里面也包含一些优化方面的实现，这里也说一下。比如：Entry[]的长度一定后，随着map里面数据的越来越长，这样同一个index的链就会很长，会不会影响性能？

回答：会影响性能，HashMap里面设置一个因子，随着map的size越来越大，Entry[]（对应index的链表，每个元素都是Entry）会以一定的规则加长长度。

（2）get

 public V get(Object key) {

        if (key == null)

            return getForNullKey();

        int hash = hash(key.hashCode());

        //先定位到数组元素，再遍历该元素处的链表

        for (Entry<K,V> e = table[indexFor(hash, table.length)];

             e != null;

             e = e.next) {

            Object k;

            if (e.hash == hash && ((k = e.key) == key || key.equals(k)))

                return e.value;

        }

        return null;

}

（3）null key 的存取

null key总是存放在Entry[]数组的第一个元素。

  private V putForNullKey(V value) {

        for (Entry<K,V> e = table[0]; e != null; e = e.next) {

            if (e.key == null) {

                V oldValue = e.value;

                e.value = value;

                e.recordAccess(this);

                return oldValue;

            }

        }

        modCount++;

        addEntry(0, null, value, 0);

        return null;

    }

    private V getForNullKey() {

        for (Entry<K,V> e = table[0]; e != null; e = e.next) {

            if (e.key == null)

                return e.value;

        }

        return null;

    }

（4）确定数组的index：hashcode % table.length取模

HashMap存取时，都需要计算当前key应该对应Entry[]数组哪个元素，即计算数组下标；算法如下：

 /**

     * Returns index for hash code h.

     */

    static int indexFor(int h, int length) {

        return h & (length-1);

    }

按位取并，作用上相当于取模mod或者取余%。

这意味着数组下标相同，并不表示hashCode相同。

（5）table（哈希表）初始大小

public HashMap(int initialCapacity, float loadFactor) {

        .....

        // Find a power of 2 >= initialCapacity

        int capacity = 1;

        while (capacity < initialCapacity)

            capacity <<= 1;

this.loadFactor = loadFactor;

        threshold = (int)(capacity * loadFactor);

        table = new Entry[capacity];

        init();

    }

注意table初始大小并不是构造函数中的initialCapacity！！

而是 >= initialCapacity的2的n次幂！！！！

3. HashMap的实现原理之 解决hash冲突的办法：

开放定址法（线性探测再散列，二次探测再散列，伪随机探测再散列）
再哈希法
链地址法
建立一个公共溢出区

Java中hashmap的解决办法就是采用的链地址法。

4. HashMap的实现原理之 哈希表rehash过程（扩容机制）：

当HashMap中的元素越来越多的时候，hash冲突的几率也就越来越高，因为数组的长度是固定的。所以为了提高查询的效率，就要对HashMap的数组进行扩容，数组扩容这个操作也会出现在ArrayList中，这是一个常用的操作，而在HashMap数组扩容之后，最消耗性能的点就出现了：原数组中的数据必须重新计算其在新数组中的位置，并放进去，这就是resize。

当哈希表的容量超过默认容量时，必须调整table的大小。当容量已经达到最大可能值时，那么该方法就将容量调整到Integer.MAX_VALUE返回，这时，需要创建一张新表，将原表的映射到新表中。

HashMap 类中包含3个和扩容相关的常量：

DEFAULT_INITIAL_CAPACITY 是初始容量，默认是 2^4 = 16；

MAXIMUM_CAPACITY是最大容量，默认是 2^30；

DEFAULT_LOAD_FACTOR是增长因子，当占用率超过这个值时，就会触发扩容操作。

DEFAULT_INITIAL_CAPACITY是table数组的容量，DEFAULT_LOAD_FACTOR则是为了最大程度避免哈希冲突，提高HashMap效率而设置的一个影响因子，将DEFAULT_LOAD_FACTOR乘以DEFAULT_INITIAL_CAPACITY就得到了一个阈值threshold，当HashMap的容量达到threshold时就需要进行扩容，这个时候就要进行ReHash操作了，可以看到下面addEntry函数的实现，当size达到threshold时会调用resize（）函数进行扩容。

HashMap的默认扩容机制，是存储的key超过容量的75%时，容量翻番。其实，这些和有序无序没关系。

比如：当前大小是，当占用超过16*0.75=12时，就把容量扩充到16*2=。

resize（）方法的源码如下：

   /**

      * Rehashes the contents of this map into a new array with a

      * larger capacity.  This method is called automatically when the

      * number of keys in this map reaches its threshold.

      *

      * If current capacity is MAXIMUM_CAPACITY, this method does not

      * resize the map, but sets threshold to Integer.MAX_VALUE.

      * This has the effect of preventing future calls.

      *

      * @param newCapacity the new capacity, MUST be a power of two;

      *        must be greater than current capacity unless current

      *        capacity is MAXIMUM_CAPACITY (in which case value

      *        is irrelevant).

      */

     void resize(int newCapacity) {

         Entry[] oldTable = table;

         int oldCapacity = oldTable.length;

         if (oldCapacity == MAXIMUM_CAPACITY) {

             threshold = Integer.MAX_VALUE;

             return;

         }

         Entry[] newTable = new Entry[newCapacity];

         transfer(newTable);

         table = newTable;

         threshold = (int)(newCapacity * loadFactor);

     }

     /**

      * Transfers all entries from current table to newTable.

      */

     void transfer(Entry[] newTable) {

         Entry[] src = table;

         int newCapacity = newTable.length;

         for (int j = 0; j < src.length; j++) {

             Entry<K,V> e = src[j];

             if (e != null) {

                 src[j] = null;

                 do {

                     Entry<K,V> next = e.next;

                     //重新计算index

                     int i = indexFor(e.hash, newCapacity);

                     e.next = newTable[i];

                     newTable[i] = e;

                     e = next;

                 } while (e != null);

             }

         }

     }

在扩容的过程中需要进行ReHash操作，而这是非常耗时的，在实际中应该尽量避免。

Java基础知识强化之集合框架笔记79：HashMap的实现原理的更多相关文章

Java基础知识强化之集合框架笔记76：ConcurrentHashMap之 ConcurrentHashMap简介
1. ConcurrentHashMap简介: ConcurrentHashMap是一个线程安全的Hash Table,它的主要功能是提供了一组和Hashtable功能相同但是线程安全的方法.Conc ...
Java基础知识强化之集合框架笔记67：Hashtable的实现原理
至于Hashtable的实现原理,直接参考网友的博客,总结很全面: 深入Java集合学习系列:Hashtable的实现原理
Java基础知识强化之集合框架笔记64：Map集合之ArrayList嵌套HashMap
1. ArrayList集合嵌套HashMap集合并遍历. 需求: 假设ArrayList集合的元素是HashMap.有3个. 每一个HashMap集合的键和值都是字 ...
Java基础知识强化之集合框架笔记63：Map集合之HashMap嵌套ArrayList
1. ArrayList集合嵌套HashMap集合并遍历. 需求:假设ArrayList集合的元素是HashMap.有3个.每一个HashMap集合的键和值都是字符串.元素我已经完成,请遍历. 结果: ...
Java基础知识强化之集合框架笔记47：Set集合之TreeSet保证元素唯一性和比较器排序的原理及代码实现（比较器排序：Comparator）
1. 比较器排序(定制排序) 前面我们说到的TreeSet的自然排序是根据集合元素的大小,TreeSet将它们以升序排列. 但是如果需要实现定制排序,比如实现降序排序,则要通过比较器排序(定制排序)实 ...
Java基础知识强化之集合框架笔记39：Set集合之HashSet存储字符串并遍历
1. HashSet类的概述: (1)不保证set的迭代顺序 (2)特别是它不保证该顺序恒久不变 HashSet底层数据结构是哈希表,哈希表依赖于哈希值存储,通过哈希值来确定元素的位置, 而保证元素 ...
Java基础知识强化之集合框架笔记27：ArrayList集合练习之去除ArrayList集合中的重复字符串元素
1. 去除ArrayList集合中的重复字符串元素(字符串内容相同) 分析: (1)创建集合对象 (2)添加多个字符串元素(包含重复的) (3)创建新的集合 (4)遍历旧集合,获取得到每一个元素 (5 ...
Java基础知识强化之集合框架笔记07：Collection集合的遍历之迭代器遍历
1. Collection的迭代器: Iterator iterator():迭代器,集合的专用遍历方式 2. 代码示例: package cn.itcast_03; import java.util ...
Java基础知识强化之集合框架笔记05：Collection集合的遍历
1.Collection集合的遍历 Collection集合直接是不能遍历的,所以我们要间接方式才能遍历,我们知道数组Array方便实现变量,我们可以这样: 使用Object[] toArray() ...

随机推荐

[javaEE] http协议详细
上一篇:http://www.cnblogs.com/taoshihan/p/5346731.html HTTP请求请求行 GET /taoshihan/p/5346731.html HTTP/1. ...
Xcode8如何创建Framework静态SDK库
iOS的软件开发工具包SDK,一般是以库的形式出现,从本质上来说是一种可执行代码的二进制格式,可以被载入内存中执行.开发过程中,我们常常会用到第三方的SDK.尤其是微信.QQ.百度地图.支付功能等.其 ...
网络编程: 基于TCP协议的socket, 实现一对一, 一对多通信
TCP协议面向连接可靠的面向字节流形式的 tcp是基于链接的,必须先启动服务端,然后再启动客户端去链接服务端 TCP协议编码流程: 服务器端: 客户端实例化对 ...
xamarin.android 实现 Activity 底部弹出对话框菜单
Resources/drawable 下新增如下文件: push_bottom_in.xml <?xml version="1.0" encoding="utf-8 ...
常用数据库validationQuery语句
validationQuery是用来验证数据库连接的查询语句,这个查询语句必须是至少返回一条数据的SELECT语句.每种数据库都有各自的验证语句,下表中收集了几种常见数据库的validationQue ...
无效的列类型:getTimestamp not implemented for class oracle.jdbc.driver.T4CNumberAccessor
错误信息: 无效的列类型:getTimestamp not implemented for class oracle.jdbc.driver.T4CNumberAccessor 错误原因:经过排查发现 ...
css雪碧技术的用法。
---恢复内容开始--- 在目前前端开发阶段,页面会出现大量的小图片,服务器加载的时候比较吃力,怎么用一种办法把图片都合并到一张图片上呢?这就用到了css雪碧技术. 雪碧技术是雪碧团队开发,也有人叫 ...
ubuntu命令行编译opencv c++项目
ubuntu终端编译opencv c++项目: g++ test.cpp `pkg-config opencv --libs --cflags opencv` -o test
Ubuntu中利用rename批量重命名
1．简介: 通常在机器视觉的学习过程中,需要批量处理一些图片,通常会涉及到批量重命名的问题,可以利用rename命令快速实现图片的批量重命名 2.rename命令格式: rename [-v] [-n ...
opencv3.2.0形态学滤波之膨胀
//名称:膨胀 //日期:12月21日 //平台:QT5.7.1+opencv3.2.0 /* 膨胀(dilate)的含义: 膨胀就是求局部最大值的操作,就是将图像(或图像的一部分,A)与核 B 进行 ...

Java基础知识强化之集合框架笔记79：HashMap的实现原理

Java基础知识强化之集合框架笔记79：HashMap的实现原理的更多相关文章

随机推荐

热门专题