理解分布式存储的本质

有一个经典的实践经验:

数(值)据大了, 什么都是问题!

如果要求128B或更大数值计算, 哪么四则运算会是个大问题!
如果要求128T或更大日志存储, 哪么文件存储会是个大问题!
如果要求128W或更大并发操作, 哪么内存管理会是个大问题!

等等....."墨菲定律", 凡有如果就会发生, Redis缓存数据就是一例! 单机128G内存都无法满足,咋办? 最简单的答案就是大学"数据结构与算法分析"的经常考点:"分而治之"策略. 何谓"分而治之", 就是用餐盒打包饭菜, 一个不够就二个, 二个不够就三个...很少人会去考虑其中蕴含的逻辑哲理.

实现分布式存储的关键

分布式存储的关键:

咋分?

一般都是在三个"方便"中权衡:

方便加速读的性能.
方便加速写的性能.
方便扩展维护,故障恢复.

结合日常需求, 很容易明白这些"方便"的意义.

为了满足上述需求, 很多"聪明人士"抽象了"虚拟结点", 再想出了"二层映射"思路(算法):

先将数据主键映射到虚拟(存储)结点.
再将虚拟结点映射到物理(存储)结点.

步骤1要求尽可能离散,尽可能均衡, 才能分摊读写的瓶颈. 这涉及"离散空间中的一般均衡理论". 说白了, 就是选择算法实现的优劣.

步骤2要求总够的灵活度, 才能实现扩展维护, 故障恢复. 说白了, 就是自由组合.

基于这种思路的生产算法:

一致性HASH算法:

数据主键映射到虚拟结点:

HASH(key): unsigned int

结果介于0~2^32-1 (JAVA是-2^16 ~ 2^16-1). 为什么是2^32? 因为32位OS最直接的支持就是unsigned int.

虚拟结点映射到物理结点:

switch(HASH(key)){

case (L0, H0]: Node0;

case (L1, H1]: Node1;

...

default: Node0;

}

(Li, Hi]->Nodei是由业务维护的一张映射关系表. 可变!

ceph的CRUSH算法

数据主键映射到虚拟结点:

hash(oid) & mask -> pgid

虚拟结点映射到物理结点:

clustermap(pgid) -> osds

一般hash与一致性hash的优劣

一般hash与致性hash都可以实现将数据分布

一般hash实现及优劣:

    HASH(key)%N

优点: 够简单, 我喜欢! 先hash, 再模N.
缺点: N变化波及整个离散空间.

一致性hash实现及优劣:

switch(HASH(key)){

case (L0, H0]: Node0;

case (L1, H1]: Node1;

...

default: Node0;

}

优点:
缺点: 计算复杂了点.

相关算法实现

数据主键映射到虚拟结点: MD5, MurmurHash.
- MD5是16Byte, 映射到4Byte的int.
- MurmurHash算法：高运算性能，低碰撞率，由Austin Appleby创建于2008年，现已应用到Hadoop、libstdc++、nginx、libmemcached等开源系统。2011年Appleby被Google雇佣，随后Google推出其变种的CityHash算法.
  
  官方网站：https://sites.google.com/site/murmurhash/
虚拟结点映射到物理结点: 红黑树

参考资料:http://blog.csdn.net/yuhk231/article/details/51218244

一致性hash应用到redis的更多相关文章

一致性Hash算法在Redis分布式中的使用
由于redis是单点,但是项目中不可避免的会使用多台Redis缓存服务器,那么怎么把缓存的Key均匀的映射到多台Redis服务器上,且随着缓存服务器的增加或减少时做到最小化的减少缓存Key的命中率呢? ...
关于一致性Hash算法
在大型web应用中,缓存可算是当今的一个标准开发配置了.在大规模的缓存应用中,应运而生了分布式缓存系统.分布式缓存系统的基本原理,大家也有所耳闻.key-value如何均匀的分散到集群中?说到此,最常 ...
不会一致性hash算法，劝你简历别写搞过负载均衡
大家好,我是小富~ 个人公众号:程序员内点事,欢迎学习交流这两天看到技术群里,有小伙伴在讨论一致性hash算法的问题,正愁没啥写的题目就来了,那就简单介绍下它的原理.下边我们以分布式缓存中经典场景举 ...
redis一致性hash算法理解
一般算法: 对对象先hash然后对redis数量取模,如果结果是0就存在0的节点上. 1.2同上,假设有0-3四个redis节点.20个数据: 进行取模后分布如下: 现在因为压力过大需要扩容,增加一台 ...
7.redis 集群模式的工作原理能说一下么？在集群模式下，redis 的 key 是如何寻址的？分布式寻址都有哪些算法？了解一致性 hash 算法吗？
作者:中华石杉面试题 redis 集群模式的工作原理能说一下么?在集群模式下,redis 的 key 是如何寻址的?分布式寻址都有哪些算法?了解一致性 hash 算法吗? 面试官心理分析在前几年, ...
11.redis cluster的hash slot算法和一致性 hash 算法、普通hash算法的介绍
分布式寻址算法 hash 算法(大量缓存重建) 一致性 hash 算法(自动缓存迁移)+ 虚拟节点(自动负载均衡) redis cluster 的 hash slot 算法一.hash 算法来了一 ...
Golang 实现 Redis(7): Redis 集群与一致性 Hash
本文是使用 golang 实现 redis 系列的第七篇, 将介绍如何将单点的缓存服务器扩展为分布式缓存.godis 集群的源码在Github:Godis/cluster 单台服务器的CPU和内存等资 ...
探索c#之一致性Hash详解
阅读目录: 使用场景算法原理虚拟节点代码示例使用场景以Redis为例,当系统需要缓存的内容超过单机内存大小时,例如要缓存100G数据,单机内存仅有16G时.这时候就需要考虑进行缓存数据分片, ...
tornado--SESSION框架，一致性hash，分布式存储
预备知识 tornado框架session要自己写 cookie存储在客户端浏览器上,session数据放在服务器上 session依赖cookie 扩展tornado,返回请求前自定义session ...

随机推荐

【WinAPI】User32.dll注释
#region User32.dll 函数 /// <summary> /// 该函数检索一指定窗口的客户区域或整个屏幕的显示设备上下文环境的句柄,以后可以在GDI函数中使用该句柄来在设备 ...
使用JDBC-ODBC读取Excel文件
以下代码我没有真正去实践,紧做为总结,方便以后查阅: 这种方法需要设置ODBC源..... 参考: http://xytang.blogspot.com/2008/02/how-to-connect- ...
html+css--水平居中总结（不定宽块状元素方法）（一）
来源:http://www.imooc.com/code/6363 在实际工作中我们会遇到需要为“不定宽度的块状元素”设置居中,比如网页上的分页导航,因为分页的数量是不确定的,所以我们不能通过设置宽度 ...
java上传组件FileUpload
如果表单中有文件要上传,也就是有<input type="file" name="name"/> 就需要在form标签中添加enctype=&quo ...
javascript触摸事件touch使用
详细内容请点击 Apple在iOS 2.0中引入了触摸事件API,Android正迎头赶上这一事实标准,缩小差距.最近一个W3C工作组正合力制定这一触摸事件规范. 在本文深入研究iOS和 ...
【CSS3】---only-child选择器+only-of-type选择器
only-child选择器 “:only-child”选择器选择的是父元素中只有一个子元素,而且只有唯一的一个子元素.也就是说,匹配的元素的父元素中仅有一个子元素,而且是一个唯一的子元素. 示例演示 ...
Part 7 Joins in sql server
Joins in sql server Advanced or intelligent joins in sql server Self join in sql server Different wa ...
项目经理PPT演讲意见
1.语速 2.互动 3.平常语气,聊天的感觉去讲解 4.脱稿演讲,不要照着PPT读,PPT展示仅仅是一个重点提示,更多在于自己讲解 5.如果是验收等相关的内容,劲量多讲解用户能够得到的利益,如“钱” ...
Objective-C 【Category-非正式协议-延展】
------------------------------------------- 类别(Category)的声明和实现实质:类别又叫类目,它其实是对类的一个拓展!但是他不同于继承后的拓展! ...
关联表映射 Association Table Mapping
把关联保存为一个表,存储关联表的外键在对象中,使用集合作为域值,来处理多值域. 而在DB中,只能有单值域. 外键映射的核心,是在关联关系的单值端使用外键来维持联系. 而在多对多的关联关系中,已经不存 ...