分布式存储系统举例剖析（elasticsearch，kafka，redis-cluster）

1. 概述

对于分布式系统，人们首先对现实中的分布式系统进行高层抽象，然后做出各种假设，发展了诸如CAP, FLP 等理论，提出了很多一致性模型，Paxos 是其中最璀璨的明珠。我们对分布式系统的时序，复制模式，一致性等基础理论特别关注。

在共识算法的基础上衍生了选举算法，并且为分布式事务提供了部分的支持。本文从常见的几种分布式存储系统看看实践中的分布式系统设计细节。理论结合实际，能更好地帮助我们加深理解。

2.分片

先来看看分片的定义：

The word “Shard” means “a small part of a whole“. Hence Sharding means dividing a larger part into smaller parts. In DBMS, Sharding is a type of DataBase partitioning in which a large database is divided or partitioned into smaller data and different nodes

分片是分布式存储系统绕不开的话题，分片提供了更大的数据容量，能够提升读写效率，提升数据可用性。

分布式存储系统	分片	备注
elasticsearch	每个index 进行分片，即 shard	shard计算，shard = hash(routing) % number_of_primary_shards
kafka	每个topic分析分片，即 partition	根据key来选择partition，也可以根据自定义partition算法实现同一的user发送到同一的partition
redis-cluster	对所有数据进行分片，hash slot 16384（2^14）	hash tags 确保数据分配到同一个slot：{123}:profile and user:{123}:account

对redis-cluster 来讲，redis client 需要缓存 key - slot 映射，因为redis 节点不会对查询请求进行代理，如果查询数据不存在，则需要client重新查询。
redis-cluster 的设计目标是在提供高性能的基础上，让redis数据能分布在多达1000个节点的集群上。

3.复制

复制提升了数据的可靠性，复制分片还可以用来做read。在分布式系统重，有两种复制模式：

同步复制，主节点在同步数据到slave，然后返回响应给到client
异步复制，主节点先返回响应给到client，然后同步数据到slave

分布式存储系统	复制	备注
elasticsearch	primary 复制数据到 in-sync copies，同步复制
kafka	主分片复制数据到 ISR (in sync replica)	producer 可以配置 acks 和 min.insync.replicas 来调整一致性
redis-cluster	采用redis 的复制机制，异步复制	redis对性能非常敏感，所以采用的都是异步复制

以上三种系统均采用 primary-backup model （Google I/O 2009 - Transactions Across Datacenters）, 具有低延迟，高吞吐，会有部分的数据丢失窗口
旧的elasticsearch 版本中可以调整write conistency level : one（primary shard）, all（all shard）, quorum（default）.
kafka 是典型的日志消息系统，数据量特别大，在常见的quorum-based 系统中，为了能容忍n个节点失败，往往需要2n + 1 个节点，这对kafka来讲多余的存储成本非常的高，于是kafka采用了ISR机制，即只维护那些与主分片及时保持同步的分片，当主分片失败时，从ISR 中选取一个作为最新的主分片即可。

4.一致性

不同的复制策略带来了不同的一致性，常见的一致性有

强一致性
最终一致性
弱一致性

根据Ryan Barrett在Google I/O 2009 - Transactions Across Datacenters中的定义，elasticsearch/kafka/redis-cluster 都采用了 primary-backup model，primary-backup model 的特点是最终一致性，但是具体细节有所不同。

分布式存储系统	写入一致性	NWR 模型	备注
elasticsearch	最终一致性（较强）	w(all write) , r(1)	需要refresh 到文件系统缓存才可见，flush操作到磁盘
kafka	最终一致性（可调）	w(ack writes) , r(1)	ack = 0 最弱，ack = all 最强
redis-cluster	最终一致性（较弱）	w(1) , r(1)

采用最终一致性，意味着在写入过程中，会出现部分节点返回最新数据，部分节点返回过期数据的情况，由于这个时间窗口很小，往往可以接受。
我们在这里提到了NWR模型，参考 partial quorums，partial quorums 在基于冲突解决的复制模型中使用广泛，比如Dynamo。当 r + w > n 时总有节点能返回最新的数据。

5.选举算法

选举算法的基础是共识算法，paxos是其中最璀璨的明珠，paxos在共识算法中的地位可以用这样表述：

Either Paxos, or Paxos with cruft, or broken

paxos 最早应用于google 的 Chubby （lock manager），zk是 Chubby的开源版本。

分布式存储系统	选举算法	备注
elasticsearch	bully/类raft	bully算法比较简单，谁大就选谁
kafka	zookeeper(zab)/kraft(raft)
redis-cluster	类raft

可以看到很多分布式组件都有转向raft的趋势。
由于paxos算法晦涩难懂，并且如果要应用到实际过程中需要做很多调整，所以开发了一个易于理解的版本raft算法，raft算法分为 leader election, log replication, safety, and membership changes 等模块，相比于paxos 所有节点都是平等的，raft 进行leader 选举，并且通过log replication进行数据同步，safety 确立了raft算法的完备性，membership changes 处理节点变更的情形。log replication 表示了raft底层的数据结构，对我们设计类似系统大有裨益。

6.事务支持

存储系统中，事务是非常重要一部分，我们来看看各类组件是否支持分布式事务，以及他们是如何实现的：

分布式存储系统	事务支持	备注
elasticsearch	不支持
kafka	支持事务，基于2PC
redis-cluster	不支持跨节点的事物，支持单节点的事物	使用multi/exec/watch 来实现

2PC是一种强一致的模型，具有高延迟，低吞吐的特点。
常见的分布式事务模型有，primary-backup model，multi-master model, 2PC, Paxos. 3PC 是2PC 的变体。个人认为TCC, 基于消息表的事务也是2PC 的变体。

7.总结

本文从分布式系统的几个方面探讨了elasticsearch，kafka，redis-cluster的细节，他们有很多共性，但是在许多方面也有很多不同。鉴于笔者对分布式系统的研究还不是很深入，如果错误，请指正。

8.参考

https://book.mixu.net/distsys/single-page.html

https://www.youtube.com/watch?v=srOgpXECblk

https://snarfed.org/transactions_across_datacenters_io.html

http://harry.me/blog/2014/12/27/neat-algorithms-paxos/

https://ramcloud.atlassian.net/wiki/download/attachments/6586375/raft.pdf

分布式存储系统举例剖析（elasticsearch，kafka，redis-cluster）的更多相关文章

Redis Cluster架构优化
Redis Cluster架构优化在<全面剖析Redis Cluster原理和应用>中,我们已经详细剖析了现阶段Redis Cluster的缺点: 无中心化架构 Gossip消息的开销 ...
Redis中国用户组|唯品会Redis cluster大规模生产实践
嘉宾:陈群很高兴有机会在Redis中国用户组给大家分享redis cluster的生产实践.目前在唯品会主要负责redis/hbase的运维和开发支持工作,也参与工具开发工作 Outline 一.生 ...
全面剖析Redis Cluster原理和应用（转）
1.Redis Cluster总览 1.1 设计原则和初衷在官方文档Cluster Spec中,作者详细介绍了Redis集群为什么要设计成现在的样子.最核心的目标有三个: 性能:这是Redis赖以生 ...
全面剖析Redis Cluster原理和应用（good）
redis redis cluster注意的问题 : 1.‘cluster-require-full-coverage’参数的设置.该参数是redis配置文件中cluster模式的一个参数,从字面上基 ...
全面剖析Redis Cluster原理和应用
全面剖析Redis Cluster原理和应用 1.Redis Cluster总览 1.1 设计原则和初衷在官方文档Cluster Spec中,作者详细介绍了Redis集群为什么要设计成现在的样子.最 ...
Redis Cluster的搭建与部署，实现redis的分布式方案
前言上篇Redis Sentinel安装与部署,实现redis的高可用实现了redis的高可用,针对的主要是master宕机的情况,我们发现所有节点的数据都是一样的,那么一旦数据量过大,redi也会 ...
Redis05——Redis Cluster 如何实现分布式集群
前面一片文章,我们已经说了Redis的主从集群及其哨兵模式.本文将继续介绍Redis的分布式集群. 在高并发场景下,单个Redis实例往往不能满足业务需求.单个Redis数据量过大会导致RDB文件过大 ...
spring boot:使用redis cluster集群作为分布式session(redis 6.0.5/spring boot 2.3.1)
一,为什么要使用分布式session? HpptSession默认使用内存来管理Session,如果将应用横向扩展将会出现Session共享问题, 所以我们在创建web集群时,把session保存到r ...
Redis Cluster 分布式集群（下）
Redis Cluster 搭建(工具) 环境准备节点 IP 端口节点① 172.16.1.121 6379,6380 节点② 172.16.1.122 6379,6380 节点③ 172.16. ...
Redis Cluster 分布式集群（上）
Redis Cluster 介绍 Redis 集群是一个可以在多个Redis节点之间进行数据共享的设施(installation): Redis 集群不支持那些需要同时处理多个键的 Redis 命令, ...

随机推荐

Windows服务程序管理器 - 开源研究系列文章
这些天弄了一个Windows服务程序管理器,主要是对需要的Windows服务程序进行管理.这个也能够将自己开发的服务程序注册到操作系统里去运行. 1. 项目目录: 目录见下图,对代码进行 ...
蓝桥杯真题 k倍区间
考点: - 利用前缀和求子列和 - 同余作差是模的倍数题目概要给定一个长度为N的数列,A1, A2, - AN,如果其中一段连续的子序列Ai, Ai+1, - Aj(i <= j)之和是K的 ...
L2-001 紧急救援 (25 分)
1.题目描述: 作为一个城市的应急救援队伍的负责人,你有一张特殊的全国地图.在地图上显示有多个分散的城市和一些连接城市的快速道路.每个城市的救援队数量和每一条连接两个城市的快速道路长度都标在地图上.当 ...
一分钟学一个 Linux 命令 - pwd
前言大家好,我是 god23bin.欢迎大家继续围观<一分钟学一个 Linux 命令>,每天只需一分钟,记住一个 Linux 命令不成问题.本篇文章将聚焦于 pwd 命令,一个超级简单又 ...
你还在用Object.equals()方法吗？
前言当<阿里巴巴Java开发手册>发布后,我也是仔细进行了阅读,想从中找出一些"标准",让自己的代码质量提高.手册中对 Object 的 equals 方法的使用进行 ...
如何吃透一个Java项目？
现在Austin的文档我觉得还是比较全的,但到了看代码的时候,可能有的同学就不知道应该怎么看,有想知道模块之间的调用链路,有想一点一点把细节给全看了.这时候就很可能在项目里犯迷糊了,绕不出不来了. J ...
基于Elasticsearch 为电商提供商品数据大数据查询
基于Elasticsearch 为电商提供商品数据大数据查询前言对于现代电商的产品,维度的多员花,与一套强大的搜索引擎,那是非常必要的.今天我们主要是描述我们在从事电商搜索引擎过程中的遇到的一些问 ...
2023-06-20：给定一个长度为N的数组arr，arr[i]表示宝石的价值你在某天遇到X价值的宝石， X价值如果是所有剩余宝石价值中的最小值，你会将该宝石送人 X价值如果不是所有剩余宝石价值中的
2023-06-20:给定一个长度为N的数组arr,arr[i]表示宝石的价值你在某天遇到X价值的宝石, X价值如果是所有剩余宝石价值中的最小值,你会将该宝石送人 X价值如果不是所有剩余宝石价值中的 ...
CF1817E Half-sum
题意有一个大小为 \(N\) 的非负整数集合 \(A\),每次你可以从集合中取任意两个数,并将它们的平均数放回序列.不停操作,知道集合最后剩下两个数.请求出这两个数的差的绝对值的最大值对 \(10^ ...
【TVM模型编译】1. onnx2relay.md
上一篇介绍了onnx模型在tvm中优化的总体流程. 在这一篇中,介绍onnx模型到relay模型的转换流程,主要涉及了以下几个方面: onnx算子到relay算子转换 relay算子实现这一篇介绍o ...

分布式存储系统举例剖析（elasticsearch，kafka，redis-cluster）

分布式存储系统举例剖析（elasticsearch，kafka，redis-cluster）的更多相关文章

随机推荐

热门专题