前言

在JDK1.7&1.8源码对比分析【集合】HashMap中我们遗留了一个问题：为什么HashMap在调用resize() 方法时会出现死循环？这篇文章就通过JDK1.7的源码来分析并解释这个问题。

如下，并发场景下使用HashMap造成Race Condition，从而导致死循环，现象是CPU 100%被占用。

final HashMap<String, String> map = new HashMap<String, String>();

for (int i = 0; i < 1000; i++) {

    new Thread(new Runnable() {

        @Override

        public void run() {

            map.put(UUID.randomUUID().toString(), "");

        }

    }).start();

}

一、问题症状

我们在程序中会经常使用HashMap来存储键值对，在单线程场景下使用没有任何问题。当程序性能出现瓶颈，我们开始使用多线程来操作HashMap，但因此也带来了问题：发现程序经常占了100%的CPU，查看堆栈，你会发现程序都Hang在了HashMap.get()这个方法上了，重启程序后问题消失。但是过段时间又会来。而且，这个问题在测试环境里可能很难重现。

我们简单的看一下我们自己的代码，我们就知道HashMap被多个线程操作。而Java的文档说HashMap是非线程安全的，应该用ConcurrentHashMap。

接下来我们分析一下具体的原因。

二、Hash表数据结构

HashMap通常会用一个指针数组（假设为table[]）来做分散所有的key，当一个key被加入时，会通过Hash算法通过key算出这个数组的下标i，然后就把这个<key, value>插到table[i]中，如果有两个不同的key被算在了同一个i，那么就叫冲突，又叫碰撞，这样会在table[i]上形成一个链表。

我们知道，如果table[]的尺寸很小，比如只有2个，如果要放进10个keys的话，那么碰撞非常频繁，于是一个O(1)的查找算法，就变成了链表遍历，性能变成了O(n)，这是hash表的缺陷（可参看《Hash Collision DoS 问题》）。

所以，Hash表的尺寸和容量非常的重要。一般来说，Hash表这个容器当有数据要插入时，都会检查容量有没有超过设定的thredhold，如果超过，需要增大hash表的尺寸，但是这样一来，整个hash表里的无素都需要被重算一遍。这叫rehash，这个成本相当的大。

三、HashMap的rehash源代码

下面，我们来看一下Java的HashMap的源代码。

put一个key，value对到hash表中：

public V put(K key, V value) {

    // 判断当前数组是否需要初始化

    if (table == EMPTY_TABLE) {

        inflateTable(threshold);

    }

    // 如果 key 为空，则 put 一个空值进去

    if (key == null)

        return putForNullKey(value);

    // 根据 key 计算出 hashcode

    int hash = hash(key);

    // 根据计算出的 hashcode 定位出所在桶

    int i = indexFor(hash, table.length);

    // 如果桶是一个链表则需要遍历判断里面的 hashcode、key 是否和传入 key 相等，如果相等则进行覆盖，并返回原来的值

    for (Entry<K,V> e = table[i]; e != null; e = e.next) {

        Object k;

        if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {

            V oldValue = e.value;

            e.value = value;

            e.recordAccess(this);

            return oldValue;

        }

    }

    modCount++;

    // 如果桶是空的，说明当前位置没有数据存入；新增一个 Entry 对象写入当前位置

    addEntry(hash, key, value, i);

    return null;

}

检查容量是否超标：

void addEntry(int hash, K key, V value, int bucketIndex) {

    // 判断是否需要扩容

    if ((size >= threshold) && (null != table[bucketIndex])) {

        // 如果需要就进行两倍扩充，并将当前的 key 重新 hash 并定位

        resize(2 * table.length);

        hash = (null != key) ? hash(key) : 0;

        bucketIndex = indexFor(hash, table.length);

    }

    // 将当前位置的桶传入到新建的桶中，如果当前桶有值就会在位置形成链表

    createEntry(hash, key, value, bucketIndex);

}

新建一个更大尺寸的hash表，然后把数据从老的Hash表中迁移到新的hash表中：

void resize(int newCapacity) {

    Entry[] oldTable = table;

    int oldCapacity = oldTable.length;

    if (oldCapacity == MAXIMUM_CAPACITY) {

        threshold = Integer.MAX_VALUE;

        return;

    }

    // 创建一个新的hash table

    Entry[] newTable = new Entry[newCapacity];

    // 将old hash table上的数据迁移到new hash table上

    transfer(newTable, initHashSeedAsNeeded(newCapacity));

    table = newTable;

    threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);

}

迁移的源代码，注意粗体部分：

/**

 * Transfers all entries from current table to newTable.

 */

void transfer(Entry[] newTable, boolean rehash) {

    // 从old table中取一个元素出来，然后放到new table中

    int newCapacity = newTable.length;

    for (Entry<K,V> e : table) {

        while(null != e) {

            Entry<K,V> next = e.next;

            if (rehash) {

                e.hash = null == e.key ? 0 : hash(e.key);

            }

            int i = indexFor(e.hash, newCapacity);

            e.next = newTable[i];

            newTable[i] = e;

            e = next;

        }

    }

}

好了，这个代码算是比较正常的。而且没有什么问题。

1. 正常的rehash的过程

假设我们的hash算法就是简单的用key mod 一下表的大小（也就是数组的长度）。

最上面的是old hash 表，其中的Hash表的size = 2, 所以key = 3, 7, 5，在mod 2以后都冲突在table[1]这里了。

接下来的三个步骤是hash表 resize成4，然后所有的<key, value> 重新rehash的过程。

2. 并发下的rehash过程

2.1 假设我们有两个线程

我们再回头看一下我们的 transfer代码中的这个细节：

do {

    Entry<K,V> next = e.next; // <--假设线程一执行到这里就被调度挂起了

    int i = indexFor(e.hash, newCapacity);

    e.next = newTable[i];

    newTable[i] = e;

    e = next;

} while (e != null);

而我们的线程二执行完成了。于是我们有下面的这个样子。

注意，因为线程一的 e 指向了key(3)，而next指向了key(7)，其在线程二rehash后，指向了线程二重组后的链表。我们可以看到链表的顺序被反转后。

2.2 线程一被调度回来执行

先是执行 newTable[i] = e，然后是e = next，导致了e指向了key(7)，而下一次循环的next = e.next导致了next指向了key(3)。

2.3 一切安好

线程一接着工作。把key(7)摘下来，放到newTable[i]的第一个，然后把e和next往下移。

2.4 环形链接出现

e.next = newTable[i] 导致 key(3).next 指向了 key(7)，注意：此时的key(7).next 已经指向了key(3)，环形链表就这样出现了。

于是，当我们的线程一调用到，HashTable.get(11)时，悲剧就出现了——Infinite Loop。

参考：疫苗：JAVA HASHMAP的死循环

JDK（九）JDK1.7源码分析【集合】HashMap的死循环的更多相关文章

【集合框架】JDK1.8源码分析之HashMap（一）转载
[集合框架]JDK1.8源码分析之HashMap(一) 一.前言在分析jdk1.8后的HashMap源码时,发现网上好多分析都是基于之前的jdk,而Java8的HashMap对之前做了较大的优化 ...
【集合框架】JDK1.8源码分析之HashMap（一）
一.前言在分析jdk1.8后的HashMap源码时,发现网上好多分析都是基于之前的jdk,而Java8的HashMap对之前做了较大的优化,其中最重要的一个优化就是桶中的元素不再唯一按照链表组合,也 ...
【集合框架】JDK1.8源码分析之HashMap
一.前言在分析jdk1.8后的HashMap源码时,发现网上好多分析都是基于之前的jdk,而Java8的HashMap对之前做了较大的优化,其中最重要的一个优化就是桶中的元素不再唯一按照链表组合,也 ...
【集合框架】JDK1.8源码分析之HashMap & LinkedHashMap迭代器（三）
一.前言在遍历HashMap与LinkedHashMap时,我们通常都会使用到迭代器,而HashMap的迭代器与LinkedHashMap迭代器是如何工作的呢?下面我们来一起分析分析. 二.迭代器继 ...
JDK1.8源码分析之HashMap（一） (转)
一.前言在分析jdk1.8后的HashMap源码时,发现网上好多分析都是基于之前的jdk,而Java8的HashMap对之前做了较大的优化,其中最重要的一个优化就是桶中的元素不再唯一按照链表组合,也 ...
JDK1.8源码分析之HashMap
一.前言在分析jdk1.8后的HashMap源码时,发现网上好多分析都是基于之前的jdk,而Java8的HashMap对之前做了较大的优化,其中最重要的一个优化就是桶中的元素不再唯一按照链表组合,也 ...
【集合框架】JDK1.8源码分析HashSet && LinkedHashSet（八）
一.前言分析完了List的两个主要类之后,我们来分析Set接口下的类,HashSet和LinkedHashSet,其实,在分析完HashMap与LinkedHashMap之后,再来分析HashSet ...
JDK（五）JDK1.8源码分析【集合】HashMap
本文转载自无始无终,原文连接 HashMap 在 JDK 1.8 后新增的红黑树结构传统 HashMap 的缺点 JDK 1.8 以前 HashMap 的实现是数组+链表,即使哈希函数取得再好,也 ...
【集合框架】JDK1.8源码分析之ArrayList详解(一)
[集合框架]JDK1.8源码分析之ArrayList详解(一) 一. 从ArrayList字表面推测 ArrayList类的命名是由Array和List单词组合而成,Array的中文意思是数组,Lis ...
集合之TreeSet（含JDK1.8源码分析）
一.前言前面分析了Set接口下的hashSet和linkedHashSet,下面接着来看treeSet,treeSet的底层实现是基于treeMap的. 四个关注点在treeSet上的答案二.tr ...

随机推荐

[HNOI2004]宠物收养场
fhq treap 开俩哨兵节点,然后插入.删除.前驱.后继,统计即可 #include"cstdio" #include"cstring" #include& ...
java多线程3种方式
Java多线程实现方式主要有三种:继承Thread类.实现Runnable接口.使用ExecutorService.Callable.Future实现有返回结果的多线程.其中前两种方式线程执行完后都没 ...
React之浅拷贝与深拷贝
最近发现的一个bug让我从react框架角度重新复习了一遍浅拷贝与深拷贝. 浅拷贝,就是两个变量都是指向一个地址,改变了一个变量,那另一个变量也随之改变.这就是浅拷贝带来的副作用,两个变量会相互影响到 ...
JavaScript中==和===的区别（面试题目）
==用于一般比较,===用于严格比较;==在比较的时候可以转换数据类型,===严格比较,只要类型不匹配就返回flase. 举例说明: "1" == true; //true 类型不 ...
wmware中网络设置技巧
wmware中网络的三种方式: .............................................. (1)桥接模式: 将主机网卡与虚拟机虚拟的网卡利用虚拟网桥进行通信. 默认 ...
CSS 小结笔记之浮动
在css中float是一个非常好用的属性,float最基本用法是用来做文字环绕型的样式的. 基本用法:float:left | right 例如 <!DOCTYPE html> <h ...
gitlab的仓库迁移到新的gitlab
1.下载原有gitlab源码 git clone http://gitlab.**.com/projectName gitlab地址替换成为新gitlab地址 git remote set-url o ...
Java 8方法引用使用指南
[编者按]本文作者为拥有15年 Java 开发经验的资深程序员 Per-Åke Minborg,主要介绍如何灵活地解析 Java 中的方法引用.文章系国内 ITOM 管理平台 OneAPM 编译呈现. ...
leetCode题解之反转二叉树
1.题目描述经典的反转二叉树,就是将二叉树中每个节点的左.右儿子交换. 2.题目分析 3.代码 TreeNode* invertTree(TreeNode* root) { if(root == N ...
ThinkPHP执行调用存储过程添加日志
本文出至:新太潮流网络博客 //PHP代码部分 /** * [LogAdd 操作日志] * @param [string] $userid [用户的ID] * @param [string] $typ ...

JDK（九）JDK1.7源码分析【集合】HashMap的死循环

前言

目录