转载请注明出处:https://www.cnblogs.com/morningli/p/16745294.html

raft是一种管理复制日志的算法,raft可以分解成三个相对独立的子问题:

  • 选主(Leader election):原有的leader故障后需要选举一个新的leader。
  • 复制(Log replication): leader必须接受client发送的记录(log entries)然后复制到集群中其他节点,并强制要求其他节点的日志和自己保持一致。
  • 安全(Safety):raft安全的关键是状态机安全:如果存在server将一个特定的记录应用到状态机中,不存在另外一个server在相同的日志索引上应用的是不同的命令。

算法组成

状态

  • 所有server上的持久性状态(在回应PRC之前更新到稳定存储(stable storage))

    • currentTerm:已知的最新的任期(term)(初始化为0,单调递增)
    • votedFor:当前任期内接受投票的candidateId(如果没有为null)
    • log[]:记录(log entries);每个记录包含应用到状态机的命令以及leader接收该记录时的任期
  • 所有server上的易变的状态
    • commitIndex:已知已经提交的最高的记录索引(初始化为0,单调递增)
    • lastApplied:已经应用到状态机的最高的记录索引(初始化为0,单调递增)
  • leader上的易变的状态(选举后重新初始化)
    • nextIndex[]:对于每个server,需要发送到这个server的下一条记录的索引(初始化为leader的最新的记录索引+1)
    • matchIndex[]:对于每个server,已知已经复制到这个server的最高的记录索引(初始化为0,单调递增)

AppendEntries RPC(leader调用来复制日志,也会被用作心跳)

  • 参数

    • term:leader的任期
    • leaderId:follower用来重定向客户端
    • prevLogIndex:新记录前一个记录的索引
    • prevLogTerm:prevLogIndex记录的任期
    • entries[]:需要存储的记录(心跳传空,为了提高效率可能会发送多个)
    • leaderCommit:leader的commitIndex
  • 返回
    • term:currentTerm,给leader更新自己的任期
    • success:如果follower包含匹配prevLogIndex和prevLogTerm的记录返回true
  • 接收者实现
    1. term < currentTerm 返回false
    2. prevLogTerm匹配但是找不到匹配prevLogIndex的记录返回false
    3. 如果已经存在的记录与其中一个新记录(index相同但是term不同)冲突,删除存在的这条记录以及后面的所有记录
    4. 添加不存在的新的记录到后面
    5. 如果leaderCommit > commitIndex,设置commitIndex = min(leaderCommit, 最新的记录索引)

RequestVote RPC(被candidate调用来收集选票)

  • 参数

    • term:candidate的任期
    • candidateId:请求投票的candidate
    • lastLogIndex:candidate最新的记录索引
    • lastLogTerm:candidate最新的记录任期
  • 返回
    • term:currentTerm,给candidate更新自己的任期
    • voteGranted:true表示candidate收到投票
  • 接收者实现
    1. term < currentTerm 返回 false
    2. 如果votedFor是null或者candidateId,并且candidate的日志至少和自己一样新,那么就投票给他

server 需遵守的规则

  • 所有server

    • 如果commitIndex > lastApplied:lastApplied自增,将log[lastApplied]应用到状态机中
    • 如果RPC请求或者返回包含term T > currentTerm: 设置currentTerm = T,并切换为follower
  • follower
    • 响应candidate和leader的RPC
    • 如果选举定时器超时没有收到当前leader的AppendEntries RPC或者没有向candidate投票:转换为candidate
  • candidate
    • 在转变成candidate后就立即开始选举过程

      • 自增currentTerm
      • 投票给自己
      • 重置选举定时器
      • 发送RequestVote RPC给所有其他server
    • 如果接收到大多数server的投票:成为leader
    • 如果接收到新leader发出的AppendEntries RPC:成为follower
    • 如果举定时器超时:开始新一轮选举
  • leader
    • 一旦成为领导人:发送第一个AppendEntries RPC(心跳)给每一个server;空闲时间重复发送防止选举定时器超时
    • 如果接收到客户端的命令:添加记录到本地日志后面,在完全应用到状态机后再响应客户端
    • 如果最新的记录索引 >= 某个follower的nextIndex:发送AppendEntries RPC,包含了从nextIndex开始的记录
      • 如果成功:更新follower的nextIndex和matchIndex
      • 如果因为日志不一致导致的失败:自减nextIndex并重试
    • 如果存在N > commitIndex,大多数的matchIndex[i] ≥ N并且log[N].term == currentTerm:设置commitIndex = N

算法不变量

  • Election Safety:每个任期足以多只有一个leader被选举出来
  • Leader Append-Only:leader不会覆盖或者删除自己的日志的记录;他只会在后面添加新的记录
  • Log Matching:如果两个日志包含一个相同索引和任期的记录,那么我们认为这个索引的记录以及之前的记录的内容完全一致
  • Leader Completeness:如果一个记录在一个任期内被提交,那么更高任期的leader的日志都会包含这个记录
  • State Machine Safety:如果一个server应用了一个给定索引的记录到状态机,不存在其他server在相同的索引位置应用不同的记录

参考:

https://github.com/maemual/raft-zh_cn

Raft 共识算法的更多相关文章

  1. raft共识算法

    raft共识算法 分布式一致性问题 如果说,服务器只有一个节点,那么,要保证一致性,没有任何问题,因为所有读写都在一个节点上发生.那如果server端有2个.3个甚至更多节点,要怎么达成一致性呢?下面 ...

  2. Raft共识算法详解

    Raft共识算法 一.背景 拜占庭将军问题是分布式领域最复杂.最严格的容错模型.但在日常工作中使用的分布式系统面对的问题不会那么复杂,更多的是计算机故障挂掉了,或者网络通信问题而没法传递信息,这种情况 ...

  3. 【翻译】Raft 共识算法:集群成员变更

    转载请注明出处:https://www.cnblogs.com/morningli/p/16770129.html 之前都在集群配置是固定的(参与共识算法的server集合)假设下讨论raft.在实践 ...

  4. Hyperledger Fabric无排序组织以Raft共识算法启动多个Orderer服务、多组织共同运行维护Orderer服务

    前言 在Hyperledger Fabric无系统通道启动及通道的创建和删除中,我们已经完成了以无系统通道的方式启动 Hyperledger Fabric 网络,并将链码安装到指定通道.但目前为止,实 ...

  5. docker swarm英文文档学习-12-在集群模式中的Raft共识

    Raft consensus in swarm mode 在集群模式中的Raft共识 当Docker引擎在集群模式下运行时,manager节点实现Raft 共识算法来管理全局集群状态.Docker s ...

  6. Fabric2.2中的Raft共识模块源码分析

    引言 Hyperledger Fabric是当前比较流行的一种联盟链系统,它隶属于Linux基金会在2015年创建的超级账本项目且是这个项目最重要的一个子项目.目前,与Hyperledger的另外几个 ...

  7. [区块链] 共识算法之争(PBFT,Raft,PoW,PoS,DPoS,Ripple)

    近几天对区块链中几种常见的共识机制(PBFT,Raft,PoW,PoS,DPoS,Ripple)进行了总结.尽量使用简单易懂语言,篇幅较大,想了解的可以只读每个算法介绍中前边的原理.本篇文章主要参考& ...

  8. 共识算法:PBFT、RAFT

    转自:https://www.cnblogs.com/davidwang456/articles/9001331.html 区块链技术中,共识算法是其中核心的一个组成部分.首先我们来思考一个问题:什么 ...

  9. 区块链共识算法 PBFT(拜占庭容错)、PAXOS、RAFT简述

    共识算法 区块链中最重要的便是共识算法,比特币使用的是POS(Proof of Work,工作量证明),以太币使用的是POS(Proof of Stake,股权证明)使得算理便的不怎么重要了,而今PO ...

随机推荐

  1. Centos7借助docker部署mysql,提供远程链接服务

    Centos7 借助docker部署mysql,并提供远程连接服务 安装docker 运行docker 注意安装docker和运行docker的步骤很简单,可以参考我学习docker的笔记 docke ...

  2. AtCoder Beginner Contest 247 F - Cards // dp + 并查集

    原题链接:F - Cards (atcoder.jp) 题意: 给定N张牌,每张牌正反面各有一个数,所有牌的正面.反面分别构成大小为N的排列P,Q. 求有多少种摆放方式,使得N张牌朝上的数字构成一个1 ...

  3. 注解_概念和注解_JDK内置注解

    注解: 概念:说明程序的,给计算机看的 注解:用文字描述程序的,给程序员看的 定义:注解(Annotation),也叫元数据.一种代码级别的说明.他是JDK1.5及以后的版本引入的一个特性,与类,接口 ...

  4. Map集合和Map常用子类

    Map集合 java.util.Map<K,V>集合 Map集合的特点: 1.Map集合是一个双列集合,一个元素包含两个值(Key,Value) 2.Map集合中的元素,key和value ...

  5. 一代版本一代神:利用Docker在Win10系统极速体验Django3.1真实异步(Async)任务

    一代版本一代神:利用Docker在Win10系统极速体验Django3.1真实异步(Async)任务 原文转载自「刘悦的技术博客」https://v3u.cn/a_id_177 就在去年(2019年) ...

  6. 面试突击72:输入URL之后会执行什么流程?

    在浏览器中输入 URL 之后,它会执行以下几个流程: 执行 DNS 域名解析: 封装 HTTP 请求数据包: 封装 TCP 请求数据包: 建立 TCP 连接(3 次握手): 参数从客户端传递到服务器端 ...

  7. bash脚本里的-h是什么意思?

    问题描述 我在看脚本的时候,看到了下面代码 其中的-h "$PRG"我一时没明白是在判断什么东西.然后翻阅了一下菜鸟教程和其他教程,都没有说. 问题解决 -h其实是在判断这个文件是 ...

  8. [CSharpTips]判断两条线段是否相交

    判断两条线段是否相交 主要用到了通过向量积的正负判断两个向量位置关系 向量a×向量b(×为向量叉乘),若结果小于0,表示向量b在向量a的顺时针方向:若结果大于0,表示向量b在向量a的逆时针方向:若等于 ...

  9. JS判断两个数组的元素是否完全相等

    1.使用ES6 新增的扩展运算符和Set新数据类型判断两个数组是否包含有相同的元素 var arr1 = ['green' , 'yellow' ,'blue' ,'red']; var arr2 = ...

  10. Get请求使用请求体传递参数会报400异常的问题

    问题描述: 前端使用Get请求并且使用请求体传递参数,后端使用@RequestBody注解封装参数,这时会出现400的异常信息. 解决方法: 1.Get请求不要使用请求体,使用请求体的话用POST请求 ...