转载请注明出处：https://www.cnblogs.com/morningli/p/16745294.html

raft是一种管理复制日志的算法，raft可以分解成三个相对独立的子问题:

选主（Leader election）：原有的leader故障后需要选举一个新的leader。
复制（Log replication）： leader必须接受client发送的记录（log entries）然后复制到集群中其他节点，并强制要求其他节点的日志和自己保持一致。
安全（Safety）：raft安全的关键是状态机安全：如果存在server将一个特定的记录应用到状态机中，不存在另外一个server在相同的日志索引上应用的是不同的命令。

算法组成

状态

所有server上的持久性状态（在回应PRC之前更新到稳定存储（stable storage））
- currentTerm：已知的最新的任期（term）（初始化为0，单调递增）
- votedFor：当前任期内接受投票的candidateId（如果没有为null）
- log[]：记录（log entries）；每个记录包含应用到状态机的命令以及leader接收该记录时的任期
所有server上的易变的状态
- commitIndex：已知已经提交的最高的记录索引（初始化为0，单调递增）
- lastApplied：已经应用到状态机的最高的记录索引（初始化为0，单调递增）
leader上的易变的状态（选举后重新初始化）
- nextIndex[]：对于每个server，需要发送到这个server的下一条记录的索引（初始化为leader的最新的记录索引+1）
- matchIndex[]：对于每个server，已知已经复制到这个server的最高的记录索引（初始化为0，单调递增）

AppendEntries RPC（leader调用来复制日志，也会被用作心跳）

参数
- term：leader的任期
- leaderId：follower用来重定向客户端
- prevLogIndex：新记录前一个记录的索引
- prevLogTerm：prevLogIndex记录的任期
- entries[]：需要存储的记录（心跳传空，为了提高效率可能会发送多个）
- leaderCommit：leader的commitIndex
返回
- term：currentTerm，给leader更新自己的任期
- success：如果follower包含匹配prevLogIndex和prevLogTerm的记录返回true
接收者实现
1. term < currentTerm 返回false
2. prevLogTerm匹配但是找不到匹配prevLogIndex的记录返回false
3. 如果已经存在的记录与其中一个新记录（index相同但是term不同）冲突，删除存在的这条记录以及后面的所有记录
4. 添加不存在的新的记录到后面
5. 如果leaderCommit > commitIndex，设置commitIndex = min(leaderCommit, 最新的记录索引)

RequestVote RPC（被candidate调用来收集选票）

参数
- term：candidate的任期
- candidateId：请求投票的candidate
- lastLogIndex：candidate最新的记录索引
- lastLogTerm：candidate最新的记录任期
返回
- term：currentTerm，给candidate更新自己的任期
- voteGranted：true表示candidate收到投票
接收者实现
1. term < currentTerm 返回 false
2. 如果votedFor是null或者candidateId，并且candidate的日志至少和自己一样新，那么就投票给他

server 需遵守的规则

所有server
- 如果commitIndex > lastApplied：lastApplied自增，将log[lastApplied]应用到状态机中
- 如果RPC请求或者返回包含term T > currentTerm：设置currentTerm = T，并切换为follower
follower
- 响应candidate和leader的RPC
- 如果选举定时器超时没有收到当前leader的AppendEntries RPC或者没有向candidate投票：转换为candidate
candidate
- 在转变成candidate后就立即开始选举过程
  - 自增currentTerm
  - 投票给自己
  - 重置选举定时器
  - 发送RequestVote RPC给所有其他server
- 如果接收到大多数server的投票：成为leader
- 如果接收到新leader发出的AppendEntries RPC：成为follower
- 如果举定时器超时：开始新一轮选举
leader
- 一旦成为领导人：发送第一个AppendEntries RPC（心跳）给每一个server；空闲时间重复发送防止选举定时器超时
- 如果接收到客户端的命令：添加记录到本地日志后面，在完全应用到状态机后再响应客户端
- 如果最新的记录索引 >= 某个follower的nextIndex：发送AppendEntries RPC，包含了从nextIndex开始的记录
  - 如果成功：更新follower的nextIndex和matchIndex
  - 如果因为日志不一致导致的失败：自减nextIndex并重试
- 如果存在N > commitIndex，大多数的matchIndex[i] ≥ N并且log[N].term == currentTerm：设置commitIndex = N

算法不变量

Election Safety：每个任期足以多只有一个leader被选举出来
Leader Append-Only：leader不会覆盖或者删除自己的日志的记录；他只会在后面添加新的记录
Log Matching：如果两个日志包含一个相同索引和任期的记录，那么我们认为这个索引的记录以及之前的记录的内容完全一致
Leader Completeness：如果一个记录在一个任期内被提交，那么更高任期的leader的日志都会包含这个记录
State Machine Safety：如果一个server应用了一个给定索引的记录到状态机，不存在其他server在相同的索引位置应用不同的记录

参考：

https://github.com/maemual/raft-zh_cn

Raft 共识算法的更多相关文章

raft共识算法
raft共识算法分布式一致性问题如果说,服务器只有一个节点,那么,要保证一致性,没有任何问题,因为所有读写都在一个节点上发生.那如果server端有2个.3个甚至更多节点,要怎么达成一致性呢?下面 ...
Raft共识算法详解
Raft共识算法一.背景拜占庭将军问题是分布式领域最复杂.最严格的容错模型.但在日常工作中使用的分布式系统面对的问题不会那么复杂,更多的是计算机故障挂掉了,或者网络通信问题而没法传递信息,这种情况 ...
【翻译】Raft 共识算法：集群成员变更
转载请注明出处:https://www.cnblogs.com/morningli/p/16770129.html 之前都在集群配置是固定的(参与共识算法的server集合)假设下讨论raft.在实践 ...
Hyperledger Fabric无排序组织以Raft共识算法启动多个Orderer服务、多组织共同运行维护Orderer服务
前言在Hyperledger Fabric无系统通道启动及通道的创建和删除中,我们已经完成了以无系统通道的方式启动 Hyperledger Fabric 网络,并将链码安装到指定通道.但目前为止,实 ...
docker swarm英文文档学习-12-在集群模式中的Raft共识
Raft consensus in swarm mode 在集群模式中的Raft共识当Docker引擎在集群模式下运行时,manager节点实现Raft 共识算法来管理全局集群状态.Docker s ...
Fabric2.2中的Raft共识模块源码分析
引言 Hyperledger Fabric是当前比较流行的一种联盟链系统,它隶属于Linux基金会在2015年创建的超级账本项目且是这个项目最重要的一个子项目.目前,与Hyperledger的另外几个 ...
[区块链] 共识算法之争（PBFT，Raft，PoW，PoS，DPoS，Ripple）
近几天对区块链中几种常见的共识机制(PBFT,Raft,PoW,PoS,DPoS,Ripple)进行了总结.尽量使用简单易懂语言,篇幅较大,想了解的可以只读每个算法介绍中前边的原理.本篇文章主要参考& ...
共识算法：PBFT、RAFT
转自:https://www.cnblogs.com/davidwang456/articles/9001331.html 区块链技术中,共识算法是其中核心的一个组成部分.首先我们来思考一个问题:什么 ...
区块链共识算法 PBFT（拜占庭容错）、PAXOS、RAFT简述
共识算法区块链中最重要的便是共识算法,比特币使用的是POS(Proof of Work,工作量证明),以太币使用的是POS(Proof of Stake,股权证明)使得算理便的不怎么重要了,而今PO ...

随机推荐

prim最小生成树算法（堆优化）
prim算法原理和dijkstra算法差不多,依然不能处理负边 1 #include<bits/stdc++.h> 2 using namespace std; 3 struct edge ...
react 吸顶实现
今天获取到一个需求,其实就是吸顶的需求,页面下滑,某一块dom隐藏时发生吸顶现象.这种特效其实老生常谈了,但是在这次做的时候,突发奇想,能否将其做成一个 hook ,从而实现出传递ref即可使得 do ...
Angular 新建项目错误：The Schematic workflow failed. See above
记录踩坑填坑,有不正之处请指出错误解决方法1 npm config set registry https://registry.npmjs.org/ 也可使用淘宝镜像 npm config set ...
盘点Vue2和Vue3的10种组件通信方式(值得收藏)
Vue中组件通信方式有很多,其中Vue2和Vue3实现起来也会有很多差异:本文将通过选项式API 组合式API以及setup三种不同实现方式全面介绍Vue2和Vue3的组件通信方式.其中将要实现的通信 ...
Atcoder ZONe Energy Programming Contest C - MAD TEAM（二分）
文章目录题面 Sample Input Sample output 题解 CODE 别的做法暴力 Dynamic Programming 题面你想从 N N N 个候选人中选 3 个人. 每个人 ...
【MySQL】从入门到精通7-设计多对多数据库
上期:[MySQL]从入门到精通6-MySQL数据类型与官方文档第一章:理解和一对多不一样,多对多意思是,一个数据可以被不同的数据关联. 如果是一对多,我们还可以用外键来达成. 但是现在我们是多对 ...
【MySQL】从入门到精通5-一对多-外键
上期:[MySQL]从入门到掌握4-主键与Unique 第一章:创建角色表啥是一对多啊? 一个账号可以有多个角色,但是一个角色只能属于一个账号. 举个例子,我们之前创建的是玩家的账号数据库. 但是一 ...
【java】非常多！学习路径24-总结目前所有知识(上)
感谢sikiedu.com的siki老师.几年前就开始看siki的课程,最近突然想写这个笔记系列,顺便回顾一下这些基础的知识,同时也希望能帮助到一些人,有问题一起交流哈. 全文共十章,大约1.5万字, ...
ClickHouse与Elasticsearch压测实践
1 需求分析 1.1 分析压测对象 1)什么是ClickHouse 和Elasticsearch ClickHouse 是一个真正的列式数据库管理系统(DBMS).在 ClickHouse 中,数据始 ...
K8S之YAML配置文件
通过 YAML 配置文件部署 Deployment 使用命令(类似 docker-compose) // 部署 kubectl create -f xxx.yml // 删除 kubectl del ...

Raft 共识算法

算法组成

状态

AppendEntries RPC（leader调用来复制日志，也会被用作心跳）

RequestVote RPC（被candidate调用来收集选票）

server 需遵守的规则

算法不变量

Raft 共识算法的更多相关文章

随机推荐

热门专题