手写HashMap？这么狠，面试都卷到这种程度了？

第一次见到这个面试题，是在某个不方便透露姓名的Offer收割机大佬的文章：

这……我当时就麻了，我们都知道HashMap的数据结构是数组+链表+红黑树，这是要手撕红黑树的节奏吗？

后来，整理了一些面经，发现这道题在快手的面试出现还比较频繁，分析这道题应该在快手的面试题库。那既然频繁出，肯定不能是手撕红黑树——我觉得面试官也多半撕不出来，不撕红黑树，那这道题还有点救，慢慢往下看。

认识哈希表

HashMap其实是数据结构中的哈希表在Java里的实现。

哈希表本质

哈希表也叫散列表，我们先来看看哈希表的定义：

哈希表是根据关键码的值而直接进行访问的数据结构。

就像有人到公司找老三，前台小姐姐拿手一指，那个墙角的工位就是。

简单说来说，哈希表由两个要素构成：桶数组和散列函数。

桶数组：一排工位
散列函数：老三在墙角

桶数组

我们可能知道，有一类基础的数据结构线性表，而线性表又分两种，数组和链表。

哈希表数据结构里，存储元素的数据结构就是数组，数组里的每个单元都可以想象成一个桶（Bucket）。

假如给若干个程序员分配工位：蛋蛋、熊大、牛儿、张三，我们观察到，这些名字比较有特色，最后一个字都是数字，我们可以把它提取出来作为关键码，这些一来，就可以把他们分配到对应编号的工位，没分配到的工位就让它先空着。

那么在这种情况下，我们查找/插入/删除的时间复杂度是多少呢？很明显，都是O(1)。

但咱们也不是葫芦娃，名字不能都叫一二三四五六七之类的，假如来的新人叫南宫大牛，那我们怎么分配他呢？

这就引入了我们的第二个关键要素——散列函数。

散列函数

我们需要在元素和桶数组对应位置建立一种映射映射关系，这种映射关系就是散列函数，也可以叫哈希函数。

例如，我们一堆无规律的名字诸葛钢铁、刘华强、王司徒、张全蛋……我们就需要通过散列函数，算出这些名字应该分配到哪一号工位。

散列函数构造

散列函数也叫哈希函数，假如我们数据元素的key是整数或者可以转换为一个整数，可以通过这些常见方法来获取映射地址。

直接定址法

直接根据key来映射到对应的数组位置，例如1232放到下标1232的位置。
数字分析法

取key的某些数字（例如十位和百位）作为映射的位置
平方取中法

取key平方的中间几位作为映射的位置
折叠法

将key分割成位数相同的几段，然后把它们的叠加和作为映射的位置
除留余数法

H（key)=key%p（p<=N）,关键字除以一个不大于哈希表长度的正整数p，所得余数为哈希地址，这是应用最广泛的散列函数构造方法。

在Java里，Object类里提供了一个默认的hashCode()方法，它返回的是一个32位int形整数，其实也就是对象在内存里的存储地址。

但是，这个整数肯定是要经过处理的，上面几种方法里直接定址法可以排除，因为我们不可能建那么大的桶数组。

而且我们最后计算出来的散列地址，尽可能要在桶数组长度范围之内，所以我们选择除留取余法。

哈希冲突

理想的情况，是每个数据元素经过哈希函数的计算，落在它独属的桶数组的位置。

但是现实通常不如人意，我们的空间是有限的，设计再好的哈希函数也不能完全避免哈希冲突。所谓的哈希冲突，就是不同的key经过哈希函数计算，落到了同一个下标。

既然有了冲突，就得想办法解决冲突，常见的解决哈希冲突的办法有：

链地址法

也叫拉链法，看起来，像在桶数组上再拉一个链表出来，把发生哈希冲突的元素放到一个链表里，查找的时候，从前往后遍历链表，找到对应的key就行了。

开放地址法

开放地址法，简单来说就是给冲突的元素再在桶数组里找到一个空闲的位置。

找到空闲位置的方法有很多种：

线行探查法: 从冲突的位置开始，依次判断下一个位置是否空闲，直至找到空闲位置
平方探查法: 从冲突的位置x开始，第一次增加1^2个位置，第二次增加2^2...，直至找到空闲的位置
双散列函数探查法

……

再哈希法

构造多个哈希函数，发生冲突时，更换哈希函数，直至找到空闲位置。

建立公共溢出区

建立公共溢出区，把发生冲突的数据元素存储到公共溢出区。

很明显，接下来我们解决冲突，会使用链地址法。

好了，哈希表的介绍就到这，相信你已经对哈希表的本质有了深刻的理解，接下来，进入coding时间。

HashMap实现

我们实现的简单的HashMap命名为ThirdHashMap，先确定整体的设计：

散列函数：hashCode()+除留余数法
冲突解决：链地址法

整体结构如下：

内部节点类

我们需要定义一个节点来作为具体数据的载体，它不仅要承载键值对，同样还得作为单链表的节点：

    /**

     * 节点类

     *

     * @param <K>

     * @param <V>

     */

    class Node<K, V> {

        //键值对

        private K key;

        private V value;

        //链表，后继

        private Node<K, V> next;

        public Node(K key, V value) {

            this.key = key;

            this.value = value;

        }

        public Node(K key, V value, Node<K, V> next) {

            this.key = key;

            this.value = value;

            this.next = next;

        }

    }

成员变量

主要有四个成员变量，其中桶数组作为装载数据元素的结构：

    //默认容量

    final int DEFAULT_CAPACITY = 16;

    //负载因子

    final float LOAD_FACTOR = 0.75f;

    //HashMap的大小

    private int size;

    //桶数组

    Node<K, V>[] buckets;

构造方法

构造方法有两个，无参构造方法，桶数组默认容量，有参指定桶数组容量。

    /**

     * 无参构造器，设置桶数组默认容量

     */

    public ThirdHashMap() {

        buckets = new Node[DEFAULT_CAPACITY];

        size = 0;

    }

    /**

     * 有参构造器，指定桶数组容量

     *

     * @param capacity

     */

    public ThirdHashMap(int capacity) {

        buckets = new Node[capacity];

        size = 0;

    }

散列函数

散列函数，就是我们前面说的hashCode()和数组长度取余。

    /**

     * 哈希函数，获取地址

     *

     * @param key

     * @return

     */

    private int getIndex(K key, int length) {

        //获取hash code

        int hashCode = key.hashCode();

        //和桶数组长度取余

        int index = hashCode % length;

        return Math.abs(index);

    }

put方法

我用了一个putval方法来完成实际的逻辑，这是因为扩容也会用到这个方法。

大概的逻辑：

获取元素插入位置
当前位置为空，直接插入
位置不为空，发生冲突，遍历链表
如果元素key和节点相同，覆盖，否则新建节点插入链表头部

    /**

     * put方法

     *

     * @param key

     * @param value

     * @return

     */

    public void put(K key, V value) {

        //判断是否需要进行扩容

        if (size >= buckets.length * LOAD_FACTOR) resize();

        putVal(key, value, buckets);

    }

    /**

     * 将元素存入指定的node数组

     *

     * @param key

     * @param value

     * @param table

     */

    private void putVal(K key, V value, Node<K, V>[] table) {

        //获取位置

        int index = getIndex(key, table.length);

        Node node = table[index];

        //插入的位置为空

        if (node == null) {

            table[index] = new Node<>(key, value);

            size++;

            return;

        }

        //插入位置不为空，说明发生冲突，使用链地址法,遍历链表

        while (node != null) {

            //如果key相同，就覆盖掉

            if ((node.key.hashCode() == key.hashCode())

                    && (node.key == key || node.key.equals(key))) {

                node.value = value;

                return;

            }

            node = node.next;

        }

        //当前key不在链表中，插入链表头部

        Node newNode = new Node(key, value, table[index]);

        table[index] = newNode;

        size++;

    }

扩容方法

扩容的大概过程：

创建两倍容量的新数组
将当前桶数组的元素重新散列到新的数组
新数组置为map的桶数组

    /**

     * 扩容

     */

    private void resize() {

        //创建一个两倍容量的桶数组

        Node<K, V>[] newBuckets = new Node[buckets.length * 2];

        //将当前元素重新散列到新的桶数组

        rehash(newBuckets);

        buckets = newBuckets;

    }

    /**

     * 重新散列当前元素

     *

     * @param newBuckets

     */

    private void rehash(Node<K, V>[] newBuckets) {

        //map大小重新计算

        size = 0;

        //将旧的桶数组的元素全部刷到新的桶数组里

        for (int i = 0; i < buckets.length; i++) {

            //为空，跳过

            if (buckets[i] == null) {

                continue;

            }

            Node<K, V> node = buckets[i];

            while (node != null) {

                //将元素放入新数组

                putVal(node.key, node.value, newBuckets);

                node = node.next;

            }

        }

    }

get方法

get方法就比较简单，通过散列函数获取地址，这里我省去了有没有成链表的判断，直接查找链表。

    /**

     * 获取元素

     *

     * @param key

     * @return

     */

    public V get(K key) {

        //获取key对应的地址

        int index = getIndex(key, buckets.length);

        if (buckets[index] == null) return null;

        Node<K, V> node = buckets[index];

        //查找链表

        while (node != null) {

            if ((node.key.hashCode() == key.hashCode())

                    && (node.key == key || node.key.equals(key))) {

                return node.value;

            }

            node = node.next;

        }

        return null;

    }

完整代码：

测试

测试代码如下：

    @Test

    void test0() {

        ThirdHashMap map = new ThirdHashMap();

        for (int i = 0; i < 100; i++) {

            map.put("刘华强" + i, "你这瓜保熟吗？" + i);

        }

        System.out.println(map.size());

        for (int i = 0; i < 100; i++) {

            System.out.println(map.get("刘华强" + i));

        }

    }

    @Test

    void test1() {

        ThirdHashMap map = new ThirdHashMap();

        map.put("刘华强1","哥们，你这瓜保熟吗？");

        map.put("刘华强1","你这瓜熟我肯定要啊！");

        System.out.println(map.get("刘华强1"));

    }

大家可以自行跑一下看看结果。

总结

好了，到这，我们一个简单的HashMap就实现了，这下，面试快手再也不怕手写HashMap了。

快手面试官：真的吗？我不信。我就要你手写个红黑树版的……

当然了，我们也发现，HashMap的O(1)时间复杂度操作是在冲突比较少的情况下，简单的哈希取余肯定不是最优的散列函数；冲突之后，链表拉的太长，同样影响性能；我们的扩容和put其实也存在线程安全的问题……

但是，现实里我们不用考虑那么多，因为李老爷已经帮我们写好了，我们只管调用就完了。

下一篇，会以面试对线的形式来走进李老爷操刀的HashMap！

点赞、关注不迷路，咱们下期见！

参考：

[1].《数据结构与算法》

[2].构造哈希函数方法

[3].ACM金牌选手讲解LeetCode算法《哈希》

手写HashMap，快手面试官直呼内行！的更多相关文章

手写HASHMAP
手写HASHMAP const int MAXN=10010; const int HASH=10100; //需要hash的数的总个数最大值 struct HASHMAP { ...
优雅手撕bind函数(面试官常问)
优雅手撕bind函数前言: 为什么面试官总爱让实现一个bind函数? 他想从bind中知道些什么? 一个小小的bind里面内有玄机? 今天来刨析一下实现一个bind要懂多少相关知识点,也方便我们将零 ...
手写HashMap实践
1.什么是HashMap 2.源码分析 3.手写实现 4.不足一.什么是HashMap hash散列将一个任意长度通过某种算法(hash函数算法)换成一个固定值 map: 地图x,y 存储总结: ...
硬核剖析ThreadLocal源码，面试官看了直呼内行
工作面试中经常遇到ThreadLocal,但是很多同学并不了解ThreadLocal实现原理,到底为什么会发生内存泄漏也是一知半解?今天一灯带你深入剖析ThreadLocal源码,总结ThreadLo ...
硬核解析MySQL的MVCC实现原理，面试官看了都直呼内行
1. 什么是MVCC MVCC全称是Multi-Version Concurrency Control(多版本并发控制),是一种并发控制的方法,通过维护一个数据的多个版本,减少读写操作的冲突. 如果没 ...
手写hashmap算法
/** * 01.自定义一个hashmap * 02.实现put增加键值对,实现key重复时替换key的值 * 03.重写toString方法,方便查看map中的键值对信息 * 04.实现get方法, ...
String 既然能做性能调优，我直呼内行
码哥,String 还能优化啥?你是不是框我? 莫慌,今天给大家见识一下不一样的 String,从根上拿捏直达 G 点. 并且码哥分享一个例子:通过性能调优我们能实现百兆内存轻松存储几十 G 数据. ...
这个网易云JS解密，老网抑云看了都直呼内行
最近更新频率慢了,这不是因为CK3发售了嘛,一个字就是"肝".今天来看一下网易云音乐两个加密参数params和encSecKey,顺便抓取一波某歌单的粉丝,有入库哦,使用mysql ...
手写一个简单的HashMap
HashMap简介 HashMap是Java中一中非常常用的数据结构,也基本是面试中的"必考题".它实现了基于"K-V"形式的键值对的高效存取.JDK1.7之前 ...

随机推荐

2020 年国内 Serverless 用户规模：阿里云占比第一，达 66%
在中国信息通信研究院重磅发布的国内首个<云原生用户调查报告>中,阿里云 Serverless 产品凭借在双十一的技术锤炼和丰富的应用实践,在国内 Serverless 用户规模的占比达到 ...
记一次 .NET 某招聘网后端服务内存暴涨分析
一:背景 1. 讲故事前段时间有位朋友wx找到我,说他的程序存在内存阶段性暴涨,寻求如何解决,和朋友沟通下来,他的内存平时大概是5G 左右,在某些时点附近会暴涨到 10G+, 画个图大概就是这样. ...
第5次 Beta Scrum Meeting
本次会议为Beta阶段第6次Scrum Meeting会议会议概要会议时间:2021年6月6日会议地点:「腾讯会议」线上进行会议时长:10min 会议内容简介:对完成工作进行阶段性汇报:对下一 ...
2021.9.25考试总结[NOIP模拟61]
终于有点阳间题了然而挂了60pts 哈哈 T1 交通类似简单题,限制看似很复杂,但不难发现当确定一条边是否被删后会产生裙带关系,很多边会跟着自动被确定是否被删. 仔细观察可以得出这种关系会构成偶环结 ...
[CSP-S 2021] 回文
题目描述: 给定正整数 n 和整数序列 a1, a2,-,a2n,在这 2n 个数中,1, 2,-,n 分别各出现恰好 2 次.现在进行 2n 次操作,目标是创建一个长度同样为 2n 的序列 b 1, ...
STM32串口USART的使用方法和程序
通用同步异步收发器(USART)提供了一种灵活的方法来与使用工业标准NR 异步串行数据格式的外部设备之间进行全双工数据交换. USART利用分数波特率发生器提供宽范围的波特率选择,支持同步单向通信和半 ...
SpringCloud微服务实战——搭建企业级开发框架（九）：使用Nacos发现、配置和管理微服务
Nacos是一个更易于构建云原生应用的动态服务发现.配置管理和服务管理平台,Nacos 致力于帮助您发现.配置和管理微服务.Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现.服务配置 ...
你一定不知道的Unsafe用法
Unsafe是什么首先我们说Unsafe类位于rt.jar里面sun.misc包下面,Unsafe翻译过来是不安全的,这倒不是说这个类是不安全的,而是说开发人员使用Unsafe是不安全的,也就是不推 ...
决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝
使用信息增益构造决策树,完成后剪枝目录使用信息增益构造决策树,完成后剪枝 1 构造决策树 1 根结点的选择色泽信息增益根蒂信息增益敲声信息增益纹理信息增益脐部信息增益触感信 ...
Manacher算法求最长回文子串
1 概述(扯淡) 在了解Manacher算法之前,我们得先知道什么是回文串和子串. 回文串,就是正着看反着看都一样的字符串.比如说"abba"就是一个回文串,"abbc& ...

手写HashMap，快手面试官直呼内行！

认识哈希表

哈希表本质

桶数组

散列函数

散列函数构造

哈希冲突

链地址法

开放地址法

再哈希法

建立公共溢出区

HashMap实现

内部节点类

成员变量

构造方法

散列函数

put方法

扩容方法

get方法

测试

总结

手写HashMap，快手面试官直呼内行！的更多相关文章

随机推荐

热门专题