Redis Cluster 集群中涉及到了数据分布问题，因为 redis cluster 是多 master 的结构，每个 master 都是可以提供存储服务的，这就会涉及到数据分布的问题，在新的 redis 版本中采用的是虚拟槽分区技术来解决数据分布的问题，关于什么是虚拟槽分区技术我们后面会详细的介绍。在集群中除了虚拟槽分区技术之外，还有几种数据分布的算法，比如哈希算法，一致性哈希算法，这篇文章我们就来一起聊一聊这几种数据分布算法。

因为是集群，所以我们需要一个大前提，在这篇文章中假设 redis cluster 集群中有三台 master，我们需要存储的数据集为：[{id:1,"name":"1"},{id:2,name:"2"},{id:3,name:"3"},{id:4,name:"4"},{id:5:"name":"5"},{id:6,"name":"6"}]，在这个大前提下，我们来聊一聊集群中的数据分布算法。

哈希算法

哈希算法在分布式架构中应用广泛，不仅仅是数据存储，还有负载均衡等应用上有用的比较多，哈希算法的思想非常简单，也许你知道 HashMap 的哈希函数，哈希算法跟 HashMap 一样，也是通过一个哈希函数得到某一个数字，然后根据数字找到相应的服务器。哈希算法的哈希函数比较简单，一般是根据某个key的值或者key 的哈希值与当前可用的 master节点数取模，根据取模的值获取具体的服务器。哈希算法服务结构模型图如下图所示：

用我们前面假设的数据，利用哈希算法来实验一把，加深我们对哈希算法在分布式中的应用的理。我们假设哈希算法中的哈希函数为“id % master 节点数”，结果为 0 的数据存放到 server1 服务器上，结果为 1 的数据存放到 server2 服务器上，结果为 2 的数据存放到 server3 服务器上。

所以经过哈希算法之后，id=3、id=6 的数据与 master 节点数取模为 0 （3%3=0,6%3=0），所以这两个数据会存放到 server1 服务器，以此类推，id=1、id=4 的数据将存放到 server2 服务器中，id=2、id=5 的数据将存放到 server3 上，这时候服务器存储数据如下图所示：

这就是哈希算法在分布式中的作用，比较简单，可以看出只要你哈希函数设计的好，数据在各个服务器上是比较均匀分布的，但是哈希算法有一个致命的缺点：扩展性特别的差，比如我们的集群中，服务器server3 宕机了，这时候集群中可用的机器只有两台了，这样哈希函数就变成了id % 2了，这就会导致一个问题，所有的数据需要重新计算，找到新的存储节点，每次有服务器宕机或者添加机器时，都需要进行大量的数据迁移，这会使得系统的可用性、稳定性变差。

一致性哈希算法

一致性哈希算法可以说是哈希算法的升级版，解决了哈希算法扩展性差的问题，一致性哈希算法跟哈希算法不一样，一致性哈希算法会将服务器和数据都通过哈希函数映射到一个首尾相连的哈希环上，存储节点映射可以根据 ip 地址来进行哈希取值，数据映射到哈希环上后按照顺时针的方向查找存储节点，即从数据映射在环上的位置开始，顺时针方向找到的第一个存储节点，那么他就存储在这个节点上。

我们使用一致性哈希算法来存储我们的数据，我画了一张图来模拟一致性哈希算法可能出现的结果：

我们先来解读一下这张图，按照一致性哈希算法的规则，数据沿着顺时针的方向查找数据，那么 id=4 的数据存放在 server1 服务器，id=2 的数据存放在服务器 server2 上，id=3、id=1、id=5、id=6 的数据都存放在服务器 server3 上，如果你比较敏感的话，也许你就会发现一致性哈希算法的不足之处，从图中可以看出，我们六条数据分布不均匀，并不是每台服务器存储 2 条数据，而且差距好像还有点大，这里我们就要来说一说一致性哈希算法的缺点：一致性哈希算法会会造成数据分布不均匀的问题或者叫做数据倾斜问题，就像我们图中那样，数据分布不均匀可能会造成某一个节点的负载过大，从而宕机。造成数据分布不均匀有以下两种情况：

第一：哈希函数的原因，经过哈希函数之后服务器在哈希环上的分布不均匀，服务器之间的间距不相等，这样就会导致数据不均匀。
第二：某服务器宕机了，后继节点就需要承受原本属于宕机机器的数据，这样也会造成数据不均匀。

前面我们提到过一致性哈希算法解决了哈希算法中扩展性差的问题，这个怎么理解呢？我们来看看，在一致性哈希算法中当有存储节点加入或者退出时，只会影响应该该节点的后继节点，举个例子说明一下，例如我们要在服务器server3 和服务 server2 之间加入了一个服务器存储节点 server4，只会对服务器server3 造成影响，原本存储到服务器server3 上的数据有一部分会落入到服务器 server4 上，对服务器 server1 和 server2 并没有任何影响，这样就不会进行大量的数据迁移，扩展性就变强了。

带有限负载的一致性哈希算法

因为一致性哈希算法的数据分布不均匀的问题，Google 在 2017 年提出了带有限负载的一致性哈希算法来解决这个问题，带有限负载的一致性哈希算法思想比较简单，给每个存储节点设置了一个存储上限值来控制存储节点添加或移除造成的数据不均匀，当数据按照一致性哈希算法找到相应的存储节点时，要先判断该存储节点是否达到了存储上限；如果已经达到了上限，则需要继续寻找该存储节点顺时针方向之后的节点进行存储。

我们利用带有限负载的一致性哈希算法来改进上面的数据存储，我们限定每台服务器节点存储的数据上限为 2 ，数据插入的顺序就按照 ID 大小的顺序，同样我也画了一张模拟图：

一起来分析一下这张图，因为我们的添加顺序是按照 id 大小的顺序，所以前四个数据都没有问题，这时候的服务器都没有超过最高负载数量，id=5 的数据落在了服务器server2 和服务器server3 之间，本应该是存储在服务器server3 上，但是由于此时的服务器server3 上已经存储了 id=1、id=3 的数据达到了最高限定，因此 id=5 的数据会沿着顺时针的方向继续往下寻找服务器，下一个服务器就是server1，此时的服务器server1 就存储了 id=4 的数据并没有达到上限，所以 id=5 的数据就会存储在服务器server1，id=6 的数据同样的道理。这样就利用带有限负载的一致性哈希算法解决了一致性哈希算法中数据分布不均匀的问题。

带虚拟节点的一致性哈希算法

带有限负载的一致性哈希算法也有一个问题，那就是每台服务器的性能配置可能存在不一样，如果规定数量过小的话，对于配置高的服务器来说有点浪费，这是因为服务器之间可能存在差异，叫做服务器之间的异构性，为了解决服务器之间的异构性问题，引入了一种叫做带虚拟节点的一致性哈希算法，带虚拟节点的一致性哈希算法核心思想是：根据每个节点的性能为每个节点划分不同数量的虚拟节点，并将这些虚拟节点映射到哈希环中，然后再按照一致性哈希算法进行数据映射和存储。

为了演示带虚拟节点的一致性哈希算法，我们先做一个假设服务器server3是配置最差的，所以我们以服务器server3 为基准，服务器server2 是服务器server3 的两倍，服务器server1 是服务器server3 的三倍，有了这个前提之后，我们就可以来建立虚拟节点，我们假设服务器server3 的虚拟节点为服务器server3_1，服务器server2 就有两个虚拟节点服务器server2_1、服务器server2_2，服务器server1 有三个虚拟节点服务器server1_1、服务器server1_2、服务器server1_3。我还是跟前面一样画了一张模拟图：

落到虚拟节点上的数据都会存到对应的物理服务器上，所以通过带虚拟节点的一致性哈希算法后，数据存储结果为：数据id=2、id=3、id=5 的数据都会存储到服务器server1 上，id=1 的数据将会存储到服务器server2 上，数据 id=4、id=6 都会存放到服务器server3上。

虚拟节点可以让配置好的服务器存储更多的数据，这样就解决了系统异构性的问题，同时由于大量的虚拟节点的存在
在数据迁移时数据会落到不同的物理机上，这样就减小了数据迁移时某台服务器的分担压力，能够保证系统的稳定性。

虚拟槽分区

虚拟槽分区是 redis cluster 中默认的数据分布技术，虚拟槽分区巧妙地使用了哈希空间，使用分散度良好的哈希函数把所有数据映射到一个固定范围的整数集合中，这个整数定义为槽（slot），而且这个槽的个数一般远远的大于节点数。

在 redis cluster 中有16384（0~16383）个槽，会将这些槽平均分配到每个 master 上，在存储数据时利用 CRC16 算法，具体的计算公式为：slot=CRC16（key）/16384 来计算 key 属于哪个槽。在我们的集群环境中，一个 key 的存储或者查找过程，可能如下图所示：

虚拟槽分区解耦了数据与节点的关系，通过引入槽，让槽成为集群内数据管理和迁移的基本单位，简化了节点扩容和收缩难度，你只需要关注数据在哪个槽，并不需要关心数据在哪个节点上。所以虚拟槽分区可以说比较好的兼容了数据均匀分布和扩展性的问题。

以上就是我要分享关于集群中数据分布的技术，希望本文的内容对大家的学习或者工作能带来一定的帮助，感谢大家的支持

最后

目前互联网上很多大佬都有数据分布相关文章，如有雷同，请多多包涵了。原创不易，码字不易，还希望大家多多支持。若文中有所错误之处，还望提出，谢谢。

欢迎扫码关注微信公众号：「平头哥的技术博文」，和平头哥一起学习，一起进步。

借 redis cluster 集群，聊一聊集群中数据分布算法的更多相关文章

Redis Cluster 4.0.9 集群安装搭建
Redis Cluster 4.0.9集群搭建步骤:yum install -y gcc g++ gcc-c++ make openssl cd redis-4.0.9 make mkdir -p / ...
Redis05——Redis Cluster 如何实现分布式集群
前面一片文章,我们已经说了Redis的主从集群及其哨兵模式.本文将继续介绍Redis的分布式集群. 在高并发场景下,单个Redis实例往往不能满足业务需求.单个Redis数据量过大会导致RDB文件过大 ...
redis cluster是如何做到集两家之长的
站在读写分离的层次看redis的时候,redis和master和slave存在明显的主从关系,也就是说master处于管理状态,salve跟着大哥混,master给小弟slave发粮食[发送内存快照数 ...
缓存算法及Redis、Memcached、Guava、Ehcache中的算法
https://my.oschina.net/ffy/blog/501003 https://yq.aliyun.com/articles/622757 https://blog.csdn.net/s ...
redis集群之REDIS CLUSTER
redis集群之REDIS CLUSTER 时间 2016-04-11 17:05:00 NoSQL_博客园原文 http://www.cnblogs.com/zhanchenjin/p/537 ...
【原创】强撸基于 .NET 的 Redis Cluster 集群访问组件
Hello 大家好,我是TANZAME,我们又见面了.今天我们来聊聊怎么手撸一个 Redis Cluster 集群客户端,纯手工有干货,您细品. 随着业务增长,线上环境的QPS暴增,自然而然将当前的单 ...
centos8平台redis cluster集群添加/删除node节点(redis5.0.7)
一,当前redis cluster的node情况: 我们的添加删除等操作都是以这个cluster作为demo cluster采用六台redis,3主3从 redis1 : ip: 172.17.0.2 ...
Redis Cluster 介绍与使用
Redis Cluster 功能特性 Redis 集群是分布式的redis 实现,具有以下特性: 1. 高可用性与可线性扩张到1000个节点 2. 数据自动路由到多个节点 3. 节点间数据共享 4. ...
Redis Cluster搭建方法简介22211111
Redis Cluster搭建方法简介 (2013-05-29 17:08:57) 转载▼ Redis Cluster即Redis的分布式版本,将是Redis继支持Lua脚本之后的又一重磅 ...

随机推荐

MySQL系列：走进数据库，相关概念你都明白吗？
数据库,一个我们常常提到的名词,但是你有没有想过,它到底是什么意思呢,而我们常说的 MySQL.Oracle 等又到底指什么呢? 数据库数据库(DataBase),简称 DB,是数据库是存储数据的集 ...
python_day3（文件处理）
1.文件处理 #Author:Elson Zeng #data = open("test").read() # f = open("test",'a',enco ...
深入理解计算机系统第三章程序的机器级表示 part1
如题所示,这一章讲解了程序在机器中是怎样表示的,主要讲汇编语言与机器语言. 学习什么,为什么学,以及学了之后有什么用我们不用学习如何创建机器级的代码,但是我们要能够阅读和理解机器级的代码. 虽然现代 ...
（Codeforce）The number of positions
Petr stands in line of n people, but he doesn't know exactly which position he occupies. He can say ...
『嗨威说』算法设计与分析 - 贪心算法思想小结（HDU 2088 Box of Bricks）
本文索引目录: 一.贪心算法的基本思想以及个人理解二.汽车加油问题的贪心选择性质三.一道贪心算法题点拨升华贪心思想四.结对编程情况一.贪心算法的基本思想以及个人理解: 1.1 基本概念: 首先 ...
Spring框架学习笔记（7）——Spring Boot 实现上传和下载
最近忙着都没时间写博客了,做了个项目,实现了下载功能,没用到上传,写这篇文章也是顺便参考学习了如何实现上传,上传和下载做一篇笔记吧下载主要有下面的两种方式: 通过ResponseEntity实现 ...
从0开始学前端（笔记备份）----HTML部分 Day2 HTML表格表单
django_4：数据库1——django操作数据库
创建数据库记录(插入) 使用python3 manage.py shell(python3亲测好使) ipython3 manage.py shell(亲测不好使) 方式一. [root@centos ...
bash:加减乘除（bc、let）
bc *. echo "$2 * $2" | bc > file let 如果只是 let a=1 和 a=1,它们没有区别,但是 let 还可以用于带赋值的运算,例如 le ...
磁盘配额管理disk quotas
条件: a.确保系统内核支持,Linux一般都支持 b.确保分区格式支持,ext2都只持! c.安装有quota软件,centos默认都有! (1)检查内核是否打开磁盘配额支持 [root@cento ...

借 redis cluster 集群，聊一聊集群中数据分布算法