一致性hash算法及java实现

一致性hash算法是分布式中一个常用且好用的分片算法、或者数据库分库分表算法。现在的互联网服务架构中，为避免单点故障、提升处理效率、横向扩展等原因，分布式系统已经成为了居家旅行必备的部署模式，所以也产出了几种数据分片的方法：
1.取模，2.划段，3.一致性hash
前两种有很大的一个问题就是需要固定的节点数，即节点数不能变，不能某一个节点挂了或者实时增加一个节点，变了分片规则就需要改变，需要迁移的数据也多。
那么一致性hash是怎么解决这个问题的呢？
一致性hash：对节点和数据，都做一次hash运算，然后比较节点和数据的hash值，数据值和节点最相近的节点作为处理节点。为了分布得更均匀，通过使用虚拟节点的方式，每个节点计算出n个hash值，均匀地放在hash环上这样数据就能比较均匀地分布到每个节点。
1、原理
(1)环形Hash空间
按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中，即0~(2^32)-1的数字空间中。
现在我们可以将这些数字头尾相连，想象成一个闭合的环形。如下图

(2)把数据通过一定的hash算法处理后映射到环上
现在我们将object1、object2、object3、object4四个对象通过特定的Hash函数计算出对应的key值，然后散列到Hash环上。如下图：
Hash(object1) = key1；
Hash(object2) = key2；
Hash(object3) = key3；
Hash(object4) = key4；

(3)将机器通过hash算法映射到环上
在采用一致性哈希算法的分布式集群中将新的机器加入，其原理是通过使用与对象存储一样的Hash算法将机器也映射到环中
（一般情况下对机器的hash计算是采用机器的IP或者机器唯一的别名作为输入值），然后以顺时针的方向计算，将所有对象存储到离自己最近的机器中。
假设现在有NODE1，NODE2，NODE3三台机器，通过Hash算法得到对应的KEY值，映射到环中，其示意图如下：
Hash(NODE1) = KEY1;
Hash(NODE2) = KEY2;
Hash(NODE3) = KEY3;

通过上图可以看出对象与机器处于同一哈希空间中，这样按顺时针转动object1存储到了NODE1中，object3存储到了NODE2中，object2、object4存储到了NODE3中。
在这样的部署环境中，hash环是不会变更的，因此，通过算出对象的hash值就能快速的定位到对应的机器中，这样就能找到对象真正的存储位置了。
2、机器的删除与添加
普通hash求余算法最为不妥的地方就是在有机器的添加或者删除之后会造成大量的对象存储位置失效。下面来分析一下一致性哈希算法是如何处理的。
(1)节点（机器）的删除
以上面的分布为例，如果NODE2出现故障被删除了，那么按照顺时针迁移的方法，object3将会被迁移到NODE3中，这样仅仅是object3的映射位置发生了变化，其它的对象没有任何的改动。如下图：

(2)节点（机器）的添加
如果往集群中添加一个新的节点NODE4，通过对应的哈希算法得到KEY4，并映射到环中，如下图：

通过按顺时针迁移的规则，那么object2被迁移到了NODE4中，其它对象还保持着原有的存储位置。
通过对节点的添加和删除的分析，一致性哈希算法在保持了单调性的同时，还是数据的迁移达到了最小，这样的算法对分布式集群来说是非常合适的，避免了大量数据迁移，减小了服务器的的压力。
3、平衡性–虚拟节点
根据上面的图解分析，一致性哈希算法满足了单调性和负载均衡的特性以及一般hash算法的分散性，但这还并不能当做其被广泛应用的原由，
因为还缺少了平衡性。下面将分析一致性哈希算法是如何满足平衡性的。
hash算法是不保证平衡的，如上面只部署了NODE1和NODE3的情况（NODE2被删除的图），object1存储到了NODE1中，而object2、object3、object4都存储到了NODE3中，这样就造成了非常不平衡的状态。在一致性哈希算法中，为了尽可能的满足平衡性，其引入了虚拟节点。
——“虚拟节点”（ virtual node ）是实际节点（机器）在 hash 空间的复制品（ replica ），一个实际节点（机器）对应了若干个“虚拟节点”，这个对应个数也成为“复制个数”，“虚拟节点”在 hash 空间中以hash值排列。
以上面只部署了NODE1和NODE3的情况（NODE2被删除的图）为例，之前的对象在机器上的分布很不均衡，现在我们以2个副本（复制个数）为例，这样整个hash环中就存在了4个虚拟节点，最后对象映射的关系图如下：

根据上图可知对象的映射关系：object1->NODE1-1，object2->NODE1-2，object3->NODE3-2，object4->NODE3-1。通过虚拟节点的引入，对象的分布就比较均衡了。那么在实际操作中，正真的对象查询是如何工作的呢？对象从hash到虚拟节点到实际节点的转换如下图：

“虚拟节点”的hash计算可以采用对应节点的IP地址加数字后缀的方式。例如假设NODE1的IP地址为192.168.1.100。引入“虚拟节点”前，计算 cache A 的 hash 值：
Hash(“192.168.1.100”);
引入“虚拟节点”后，计算“虚拟节”点NODE1-1和NODE1-2的hash值：
Hash(“192.168.1.100#1”); // NODE1-1
Hash(“192.168.1.100#2”); // NODE1-2

二、一致性hash算法的Java实现。
1、不带虚拟节点的

package hash;

import java.util.SortedMap;

import java.util.TreeMap;

/**

 * 不带虚拟节点的一致性Hash算法

 */

public class ConsistentHashingWithoutVirtualNode {

    //待添加入Hash环的服务器列表

    private static String[] servers = { "192.168.0.0:111", "192.168.0.1:111",

            "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111" };

    //key表示服务器的hash值，value表示服务器

    private static SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>();

    //程序初始化，将所有的服务器放入sortedMap中

    static {

        for (int i=0; i<servers.length; i++) {

            int hash = getHash(servers[i]);

            System.out.println("[" + servers[i] + "]加入集合中, 其Hash值为" + hash);

            sortedMap.put(hash, servers[i]);

        }

        System.out.println();

    }

    //得到应当路由到的结点

    private static String getServer(String key) {

        //得到该key的hash值

        int hash = getHash(key);

        //得到大于该Hash值的所有Map

        SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);

        if(subMap.isEmpty()){

            //如果没有比该key的hash值大的，则从第一个node开始

            Integer i = sortedMap.firstKey();

            //返回对应的服务器

            return sortedMap.get(i);

        }else{

            //第一个Key就是顺时针过去离node最近的那个结点

            Integer i = subMap.firstKey();

            //返回对应的服务器

            return subMap.get(i);

        }

    }

    //使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法，最终效果没区别

    private static int getHash(String str) {

        final int p = 16777619;

        int hash = (int) 2166136261L;

        for (int i = 0; i < str.length(); i++)

            hash = (hash ^ str.charAt(i)) * p;

        hash += hash << 13;

        hash ^= hash >> 7;

        hash += hash << 3;

        hash ^= hash >> 17;

        hash += hash << 5;

        // 如果算出来的值为负数则取其绝对值

        if (hash < 0)

            hash = Math.abs(hash);

        return hash;

        }

    public static void main(String[] args) {
        String[] keys = {"太阳", "月亮", "星星","木星"};
        for (int i = 0; i < keys.length; i++) {
            System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i])
                    + ", 被路由到结点[" + getServer(keys[i]) + "]");
        }
    }
}

执行结果：

[192.168.0.0:111]join in collections, its hash code is 575774686
[192.168.0.1:111]join in collections, its hash code is 8518713
[192.168.0.2:111]join in collections, its hash code is 1361847097
[192.168.0.3:111]join in collections, its hash code is 1171828661
[192.168.0.4:111]join in collections, its hash code is 1764547046

[太阳]的hash值为1977106057, 被路由到结点[192.168.0.1:111]
[月亮]的hash值为1132637661, 被路由到结点[192.168.0.3:111]
[星星]的hash值为880019273, 被路由到结点[192.168.0.3:111]
[木星]的hash值为1574472932, 被路由到结点[192.168.0.4:111]

2、带虚拟节点的

package hash;

import java.util.LinkedList;

import java.util.List;

import java.util.SortedMap;

import java.util.TreeMap;

import org.apache.commons.lang.StringUtils;

/**

  * 带虚拟节点的一致性Hash算法

  */

 public class ConsistentHashingWithoutVirtualNode {

     //待添加入Hash环的服务器列表

     private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",

             "192.168.0.3:111", "192.168.0.4:111"};

     //真实结点列表,考虑到服务器上线、下线的场景，即添加、删除的场景会比较频繁，这里使用LinkedList会更好

     private static List<String> realNodes = new LinkedList<String>();

     //虚拟节点，key表示虚拟节点的hash值，value表示虚拟节点的名称

     private static SortedMap<Integer, String> virtualNodes = new TreeMap<Integer, String>();

     //虚拟节点的数目，这里写死，为了演示需要，一个真实结点对应5个虚拟节点

     private static final int VIRTUAL_NODES = 5;

     static{

         //先把原始的服务器添加到真实结点列表中

         for(int i=0; i<servers.length; i++)

             realNodes.add(servers[i]);

         //再添加虚拟节点，遍历LinkedList使用foreach循环效率会比较高

         for (String str : realNodes){

             for(int i=0; i<VIRTUAL_NODES; i++){

                 String virtualNodeName = str + "&&VN" + String.valueOf(i);

                 int hash = getHash(virtualNodeName);

                 System.out.println("虚拟节点[" + virtualNodeName + "]被添加, hash值为" + hash);

                 virtualNodes.put(hash, virtualNodeName);

             }

         }

         System.out.println();

     }

     //使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法，最终效果没区别

     private static int getHash(String str){

         final int p = 16777619;

         int hash = (int)2166136261L;

         for (int i = 0; i < str.length(); i++)

             hash = (hash ^ str.charAt(i)) * p;

         hash += hash << 13;

         hash ^= hash >> 7;

         hash += hash << 3;

         hash ^= hash >> 17;

         hash += hash << 5;

         // 如果算出来的值为负数则取其绝对值

         if (hash < 0)

             hash = Math.abs(hash);

         return hash;

     }

     //得到应当路由到的结点

     private static String getServer(String key){

        //得到该key的hash值

         int hash = getHash(key);

         // 得到大于该Hash值的所有Map

         SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);

         String virtualNode;

         if(subMap.isEmpty()){

            //如果没有比该key的hash值大的，则从第一个node开始

            Integer i = virtualNodes.firstKey();

            //返回对应的服务器

            virtualNode = virtualNodes.get(i);

         }else{

            //第一个Key就是顺时针过去离node最近的那个结点

            Integer i = subMap.firstKey();

            //返回对应的服务器

            virtualNode = subMap.get(i);

         }

         //virtualNode虚拟节点名称要截取一下

         if(StringUtils.isNotBlank(virtualNode)){

             return virtualNode.substring(0, virtualNode.indexOf("&&"));

         }

         return null;

     }

    public static void main(String[] args) {

        String[] keys = {"太阳", "月亮", "星星","木星"};

        for (int i = 0; i < keys.length; i++) {

            System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i])

                    + ", 被路由到结点[" + getServer(keys[i]) + "]");

        }

    }

}

执行结果：

虚拟节点[192.168.0.0:111&&VN0]被添加, hash值为1686427075
虚拟节点[192.168.0.0:111&&VN1]被添加, hash值为354859081
虚拟节点[192.168.0.0:111&&VN2]被添加, hash值为1306497370
虚拟节点[192.168.0.0:111&&VN3]被添加, hash值为817889914
虚拟节点[192.168.0.0:111&&VN4]被添加, hash值为396663629
虚拟节点[192.168.0.1:111&&VN0]被添加, hash值为1032739288
虚拟节点[192.168.0.1:111&&VN1]被添加, hash值为707592309
虚拟节点[192.168.0.1:111&&VN2]被添加, hash值为302114528
虚拟节点[192.168.0.1:111&&VN3]被添加, hash值为36526861
虚拟节点[192.168.0.1:111&&VN4]被添加, hash值为848442551
虚拟节点[192.168.0.2:111&&VN0]被添加, hash值为1452694222
虚拟节点[192.168.0.2:111&&VN1]被添加, hash值为2023612840
虚拟节点[192.168.0.2:111&&VN2]被添加, hash值为697907480
虚拟节点[192.168.0.2:111&&VN3]被添加, hash值为790847074
虚拟节点[192.168.0.2:111&&VN4]被添加, hash值为2010506136
虚拟节点[192.168.0.3:111&&VN0]被添加, hash值为891084251
虚拟节点[192.168.0.3:111&&VN1]被添加, hash值为1725031739
虚拟节点[192.168.0.3:111&&VN2]被添加, hash值为1127720370
虚拟节点[192.168.0.3:111&&VN3]被添加, hash值为676720500
虚拟节点[192.168.0.3:111&&VN4]被添加, hash值为2050578780
虚拟节点[192.168.0.4:111&&VN0]被添加, hash值为586921010
虚拟节点[192.168.0.4:111&&VN1]被添加, hash值为184078390
虚拟节点[192.168.0.4:111&&VN2]被添加, hash值为1331645117
虚拟节点[192.168.0.4:111&&VN3]被添加, hash值为918790803
虚拟节点[192.168.0.4:111&&VN4]被添加, hash值为1232193678
[太阳]的hash值为1977106057, 被路由到结点[192.168.0.2:111&&VN4]
[月亮]的hash值为1132637661, 被路由到结点[192.168.0.4:111&&VN4]
[星星]的hash值为880019273, 被路由到结点[192.168.0.3:111&&VN0]
[木星]的hash值为1574472932, 被路由到结点[192.168.0.0:111&&VN0]

---------------------
原文：https://blog.csdn.net/u011305680/article/details/79721030

一致性hash算法及java实现的更多相关文章

对一致性Hash算法，Java代码实现的深入研究
一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读一文中"一致性Hash算法"部分,对于为什么要使用一致性Hash算法.一致性 ...
对一致性Hash算法及java实现（转）
一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读一文中"一致性Hash算法"部分,对于为什么要使用一致性Hash算法.一致性 ...
对一致性Hash算法，Java代码实现的深入研究(转)
转载:http://www.cnblogs.com/xrq730/p/5186728.html 一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读 ...
【转载】对一致性Hash算法，Java代码实现的深入研究
原文地址:http://www.cnblogs.com/xrq730/p/5186728.html 一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细 ...
【数据结构与算法】一致性Hash算法及Java实践
追求极致才能突破极限一.案例背景 1.1 系统简介首先看一下系统架构,方便解释: 页面给用户展示的功能就是,可以查看任何一台机器的某些属性(以下简称系统信息). 消息流程是,页面发起请求查看指定机 ...
Java实现一致性Hash算法深入研究
一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读一文中”一致性Hash算法”部分,对于为什么要使用一致性Hash算法和一致性Hash算法的算法原 ...
一致性Hash算法与代码实现
一致性Hash算法: 先构造一个长度为232的整数环(这个环被称为一致性Hash环),根据节点名称的Hash值(其分布为[0, 232-1])将服务器节点放置在这个Hash环上,然后根据数据的Key值 ...
一致性hash算法Consistent Hashing
一致性hash算法Consistent Hashing 对于原有hash算法hash%n so... 1.话不多说直接上代码,原理或详解自行百度即可 import cn.pheker.utils.Ut ...
【策略】一致性Hash算法（Hash环）的java代码实现
[一]一致性hash算法,基本实现分布平衡. package org.ehking.quartz.curator; import java.util.SortedMap; import java.ut ...

随机推荐

VirtualBox fedora29 安装
目录准备工作 VirtualBox安装 fedora安装快捷键定义准备工作平台配置 win10 64位内存 8G 硬盘 1T 下载地址 VirtualBox 5.2.22:https://w ...
Java 内存模型简单剖析
Java 内存模型试图屏蔽各种硬件和操作系统的内存访问差异,以实现让 Java 程序在各种平台下都能达到一致的内存访问效果. 主内存与工作内存处理器上的寄存器的读写的速度比内存快几个数量级,为了解决 ...
vue 安卓5.1 ios9 兼容性白屏问题
// 针对安卓4.4/ios的兼容 import 'babel-polyfill' import Es6Promise from 'es6-promise' require('es6-promise' ...
IC卡_状态码SW1、SW2
9000 正常成功执行 61xx 正常需要发GET RESPONSE命令 6200 警告信息未提供 6281 警告回送数据可能出错 6282 警告文件长度小于Le 6283 警告选中的文件 ...
Web.xml详解分析
一.首先了解项目加载的优先级首先可以肯定的是,加载顺序与它们在 web.xml 文件中的先后顺序无关.即不会因为 filter 写在 listener 的前面而会先加载 filter. 最终得出的结 ...
负载均衡集群相关、LVS介绍、LVS调度算法、LVS NAT模式搭建
1.负载均衡集群相关 2.LVS的三种模式:NAT.DR .IP tunnel 3. LVS的调度算法(共有8种) 4.LVS NAT模式搭建准备条件: 在分发服务器上安装:yum install ...
PTA寒假一
7-1 打印沙漏 (20 分) 本题要求你写个程序把给定的符号打印成沙漏的形状.例如给定17个"*",要求按下列格式打印所谓"沙漏形状",是指每行输出奇数个符 ...
windows tensorboard http://0.0.0.0:6006 无法访问解决方法 - using chrome and localhost as ip
启动命令: tensorboard --logdir="tensorboard" 启动后显示 Starting TensorBoard b'47' at http://0.0.0. ...
Nginx自动安装脚本
添加一个install_nginx.sh脚本版本一:(以下脚本为在线自动化安装) #!/bin/bash mkdir /soft cd /soft wget -c http://nginx.org/ ...
Spring IOC 相关的面试题
Spring最基础的部分就是IOC,对IOC的理解程度从某个方面代表着你对Spring 的理解程度,看了网上的一些面试题,针对Spring IOC相关的重点是下面几个: 1.Spring中Bean ...

一致性hash算法及java实现

一致性hash算法及java实现的更多相关文章

随机推荐

热门专题