像Memcache以及其它一些内存K/V数据库一样,Redis本身不提供分布式支持,所以在部署多台Redis服务器时,就需要解决如何把数据分散到各个服务器的问题,并且在服务器数量变化时,能做到最大程度的不令数据重新分布。

通常使用的分布式方法是根据所要存储数据的键的hash值与服务器数量N,按 hash % N 取模的算法来将数据分布到各个服务器。该算法的优点是足够简单,而且数据分布均匀。但是一旦服务器数量N发生变化的时候,缓存命中率会瞬间跌入谷底,因为 绝大多数的数据需要重新分布。而且对于大型网站来说,此时会有巨大的压力涌向后端服务,可能会导致性能故障和服务故障,甚至宕机。

本文介绍什么是一致性哈希,为什么要使用以及如何使用一致性哈希算法实现Redis分布式部署,并且引入了虚拟节点以提高数据均匀分布的平衡性。最后还提供了一个故障转移策略,保证在部分服务器故障的时候能迅速恢复命中率,提高Redis服务的可用性和稳定性。

一致性哈希

由于hash算法结果一般为unsigned int型,因此对于hash函数的结果应该均匀分布在[0,2^32-1]区间,如果我们把一个圆环用2^32 个点来进行均匀切割,首先按照hash(key)函数算出服务器(节点)的哈希值, 并将其分布到0~2^32的圆环上。
用同样的hash(key)函数求出需要存储数据的键的哈希值,并映射到圆环上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器(节点)上。如图所示:

key1、key2、key3和server1、server2通过hash都能在这个圆环上找到自己的位置,并且通过顺时针的方式来将key定位

server。按上图来说,key1和key2存储到server1,而key3存储到server2。如果新增一台server,hash后在key1
和key2之间,则只会影响key1(key1将会存储在新增的server上),其它则不变。

虚拟节点

在上图中,很容易看出一个问题,沿顺时针方向看,server2到server1之间的区间跨度大,而server1到server2的区间跨度
小,这就会导致一个问题:数据分布不均匀。大部分数据都分配到server1了,只有小部分数据分布在server2。在服务器数据很少的时候,数据不均
匀会表现的非常明显。

解决这个问题的方法是使用虚拟节点,一个真实服务器对应多个虚拟节点,所有虚拟节点按hash值分布在一致性哈希圆环上。具体实现方法可以这样做,为真实服务器设置副本数量,然后根据各真实服务器的IP和端口号再加上一个递增的索引数计算hash值。

class RedisCache {
public $servers = array(); //真实服务器
private $_servers = array(); //虚拟节点
const SERVER_REPLICAS = 10000; //服务器副本数量,提高一致性哈希算法的数据分布均匀程度 public function __construct( $servers ){
$this->servers = $servers; //Redis虚拟节点哈希表
foreach ($this->servers as $k => $server) {
for ($i = 0; $i < self::SERVER_REPLICAS; $i++) {
$hash = crc32($server['host'] . '#' .$server['port'] . '#'. $i);
$this->_servers[$hash] = $k;
}
}
ksort($this->_servers); // something else...
}
}

副本数量可以按真实服务器的数量调节,真实服务器 多则副本数量可以设置小一点,真实服务器少则副本数量需要设置多一点。在虚拟节点数量很大的时候,出于性能考虑所以不能使用循环的方法查找key对应的虚 拟节点,可以使用二分法快速查找。一个优化的算法是不论副本数量设置为10,100,还是10000的时候,对查找所需要的时间基本是没有影响的。

故障转移

使用一次性哈希实现Redis分布式部署了,还需要考虑系统的可用性和稳定性。需要做到,在某一台或者多台server故障的时候,程序能够自动检测到故障,并将数据重新定位到其它server。

我们可以考虑,根据key查找到的虚拟节点所对应的真实服务器故障的时候,我们在一次性哈希圆环上沿顺时针方向顺移一步,找到下一点虚拟节点对应的 真实服务器,将所要存储的数据存放上去。但也很有可能下一个虚拟节点所对应的真实服务器与前一个虚拟节点相同,还是那台故障的服务器,而每次尝试连接故障 的redis服务是一个很大的性能开销。所以在第一次检测到故障服务器的时候就需要记录下来,然后在顺移到下一个虚拟节点的时候先判断是不是之前那一台故 障的服务器,如果是那就不要再尝试进行连接,直接查找下一个虚拟节点,直到找到可用的服务器将数据存储上去。

完整示例代码

class RedisCache {
public $servers = array(); //真实服务器 private $_servers = array(); //虚拟节点 private $_serverKeys = array(); private $_badServers = array(); // 故障服务器列表 private $_count = 0; const SERVER_REPLICAS = 10000; //服务器副本数量,提高一致性哈希算法的数据分布均匀程度 public function __construct( $servers ){
$this->servers = $servers;
$this->_count = count($this-> servers); //Redis虚拟节点哈希表
foreach ($this ->servers as $k => $server) {
for ($i = 0; $i < self::SERVER_REPLICAS; $i++) {
$hash = crc32($server[ 'host'] . '#' .$server['port'] . '#'. $i);
$this->_servers [$hash] = $k;
}
}
ksort( $this->_servers );
$this->_serverKeys = array_keys($this-> _servers);
} /**
* 使用一致性哈希分派服务器,附加故障检测及转移功能
*/
private function getRedis($key){
$hash = crc32($key);
$slen = $this->_count * self:: SERVER_REPLICAS; // 快速定位虚拟节点
$sid = $hash > $this->_serverKeys [$slen-1] ? 0 : $this->quickSearch($this->_serverKeys, $hash, 0, $slen); $conn = false;
$i = 0;
do {
$n = $this->_servers [$this->_serverKeys[$sid]];
!in_array($n, $this->_badServers ) && $conn = $this->getRedisConnect($n);
$sid = ($sid + 1) % $slen;
} while (!$conn && $i++ < $slen); return $conn ? $conn : new Redis();
} /**
* 二分法快速查找
*/
private function quickSearch($stack, $find, $start, $length) {
if ($length == 1) {
return $start;
}
else if ($length == 2) {
return $find <= $stack[$start] ? $start : ($start +1);
} $mid = intval($length / 2);
if ($find <= $stack[$start + $mid - 1]) {
return $this->quickSearch($stack, $find, $start, $mid);
}
else {
return $this->quickSearch($stack, $find, $start+$mid, $length-$mid);
}
} private function getRedisConnect($n=0){
static $REDIS = array();
if (!$REDIS[$n]){
$REDIS[$n] = new Redis();
try{
$ret = $REDIS[$n]->pconnect( $this->servers [$n]['host'], $this->servers [$n]['port']);
if (!$ret) {
unset($REDIS[$n]);
$this->_badServers [] = $n;
return false;
}
} catch(Exception $e){
unset($REDIS[$n]);
$this->_badServers [] = $n;
return false;
}
}
return $REDIS[$n];
} public function getValue($key){
try{
$getValue = $this->getRedis($key)->get($key);
} catch(Exception $e){
$getValue = null;
} return $getValue;
} public function setValue($key,$value,$expire){
if($expire == 0){
try{
$ret = $this->getRedis($key)->set($key, $value);
} catch(Exception $e){
$ret = false;
}
} else{
try{
$ret = $this->getRedis($key)->setex($key, $expire, $value);
} catch(Exception $e){
$ret = false;
}
}
return $ret;
} public function deleteValue($key){
return $this->getRedis($key)->delete($key);
} public function flushValues(){
//TODO
return true;
}
} // Usage:
$redis_servers = array(
array(
'host' => '10.0.0.1',
'port' => 6379,
),
array(
'host' => '10.0.0.2',
'port' => 6379,
),
array(
'host' => '10.0.0.3',
'port' => 6379,
),
array(
'host' => '10.0.0.3',
'port' => 6928,
),
); $redisCache = new RedisCache($redis_servers);
$testKey = 'test_key';
$testValue = 'test_value_object';
$redisCache->setValue($testKey, $testValue, 3600);
$value = $redisCache->getValue($testKey);

一致性hash介绍的更多相关文章

  1. 【数据结构与算法】一致性Hash算法及Java实践

    追求极致才能突破极限 一.案例背景 1.1 系统简介 首先看一下系统架构,方便解释: 页面给用户展示的功能就是,可以查看任何一台机器的某些属性(以下简称系统信息). 消息流程是,页面发起请求查看指定机 ...

  2. 一致性Hash算法介绍(分布式环境算法)

    32的整数环(这个环被称作一致性Hash环),根据节点名称的Hash值(其分布范围同样为0~232)将节点放置在这个Hash 环上.然后根据KEY值计算得到其Hash值(其分布范围也同样为0~232  ...

  3. 一致性Hash简单介绍和使用

    背景: 一致性Hash用于分布式缓存系统,将Key值映射到详细机器Ip上,而且添加和删除1台机器的数据移动量较小,对现网影响较小 实现: 1 Hash环:将节点的Hash值映射到一个Hash环中.每一 ...

  4. 11.redis cluster的hash slot算法和一致性 hash 算法、普通hash算法的介绍

    分布式寻址算法 hash 算法(大量缓存重建) 一致性 hash 算法(自动缓存迁移)+ 虚拟节点(自动负载均衡) redis cluster 的 hash slot 算法 一.hash 算法 来了一 ...

  5. 转载自lanceyan: 一致性hash和solr千万级数据分布式搜索引擎中的应用

    一致性hash和solr千万级数据分布式搜索引擎中的应用 互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库.在这样严峻的条件下,一批又一批的创业者从创业中获得 ...

  6. 一致性hash算法简介

    一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似.一致性哈希修正了CARP使用的简单哈希 ...

  7. 分布式缓存技术memcached学习(四)—— 一致性hash算法原理

    分布式一致性hash算法简介 当你看到“分布式一致性hash算法”这个词时,第一时间可能会问,什么是分布式,什么是一致性,hash又是什么.在分析分布式一致性hash算法原理之前,我们先来了解一下这几 ...

  8. Ceph剖析:数据分布之CRUSH算法与一致性Hash

    作者:吴香伟 发表于 2014/09/05 版权声明:可以任意转载,转载时务必以超链接形式标明文章原始出处和作者信息以及版权声明 数据分布是分布式存储系统的一个重要部分,数据分布算法至少要考虑以下三个 ...

  9. 一致性Hash算法在Redis分布式中的使用

    由于redis是单点,但是项目中不可避免的会使用多台Redis缓存服务器,那么怎么把缓存的Key均匀的映射到多台Redis服务器上,且随着缓存服务器的增加或减少时做到最小化的减少缓存Key的命中率呢? ...

随机推荐

  1. Web加载资源问题

    Web加载静态资源的时候是同步加载的,每次加载必须前一个加载完成后进行后一个加载,这个是由于javascript 去阻塞浏览器其它操作导致的 推荐文章:http://www.cnblogs.com/l ...

  2. libevent库1.4升级到2.0时无法flush的解决办法

    libevent的接口兼容性做的还算不错,基本上替换一下就转到新版本了.但是,强制flush数据的时候出了问题.目前的应用场景是,遇到顶号登录这种情形,先用bufferevent_write向客户端发 ...

  3. [读书笔记]OSGI-灵活的类加载器架构

    以下内容来自周志明的<深入理解Java虚拟机>. 学习JEE规范,去看JBoss源码:学习类加载器,就去看OSGI源码. OSGI,即Open Service Gateway Initia ...

  4. OC 中 类目、延展和协议

    Category : 也叫分类,类目. *是 为没有源代码的类 扩充功能 *扩充的功能会成为原有类的一部分,可以通过原有类或者原有类的对象直接调用,并且可继承 *该方法只能扩充方法,不能扩充实例变量 ...

  5. 惩罚因子(penalty term)与损失函数(loss function)

    penalty term 和 loss function 看起来很相似,但其实二者完全不同. 惩罚因子: penalty term的作用是把受限优化问题转化为非受限优化问题. 比如我们要优化: min ...

  6. [经验交流] 简单安装 centreon 3.2

    centreon 是一个自动化监控平台,监控数据存储在 mysql 中,监控配置在UI中操作,方便且功能强大. 1. centreon 监控引擎 centreon 可以与 nagios 结合,使用 n ...

  7. Intellij Idea系列之JavaSE项目的创建(一)

    Intellij Idea系列之JavaSE项目的创建(一) 一.Intellij Idea于 Intellij Idea是捷克的Jetbrain公司的一款优秀的针对Java程序员的IDE,其自从问世 ...

  8. oracle控制文件丢失恢复

    在学习群里有个同学误删除了控制文件,于是我也把自己数据库的控制文件删除了,看看能不能进行恢复,以下是整个实验的过程~~在做之前,先看看控制文件的备份方式:1.生成可以重建控制文件的脚本.2.备份二进制 ...

  9. Codeforces Round #376 (Div. 2) C题 Socks(dsu+graphs+greedy)

    Socks Problem Description: Arseniy is already grown-up and independent. His mother decided to leave ...

  10. Electron实战:创建ELectron开发的window应用安装包

    前言:研究electron自动更新的时候,在electron的官方文档auto-updater 中,提到了在几个平台mac,Linux,windows下electron 的自动更新方法,其中winds ...