书接上文Raft Part C | MIT 6.824 Lab2C Persistence

实验准备

  1. 实验代码:git://g.csail.mit.edu/6.824-golabs-2021/src/raft
  2. 如何测试:go test -run 2D -race
  3. 相关论文:Raft Extended Section 7
  4. 实验指导:6.824 Lab 2: Raft (mit.edu)

实验目标

实现SnapshotCondInstallSnapshotInstallSnapshot RPC,并修改之前的代码以支持本次实验的内容。

一些提示

  1. 不要使用论文中的偏移机制为数据分片,每个分片作为一个快照。而是每次RPC发送全部数据作为一个快照。
  2. 丢弃旧日志的全部引用,以便GC回收。
  3. 由于保存快照要丢弃部分日志,不能再使用日志长度来作为索引日志的标准。
  4. 考虑是否需要持久化lastIncludeTermlastIncludeIndex
  5. 使用rf.persister.SaveStateAndSnapshot()持久化快照。

日志压缩

日志序列不断扩张,是无法全部存储在内存中的,对于已经应用到状态机的部分日志,就不再需要维护在Raft中。

但由于仍可能存在部分Follower的日志序列远远落后于Leader,因此这部分日志不能被Leader丢弃,在同步日志时,若Leader中原应被同步的日志在快照中,则将快照发送给Follower。

lastIncluedTerm & lastIncludeIndex

日志压缩后,Raft需要记录额外的两个信息,lastIncludeIndexlastIncludeTerm表示快照中最后一个log的index和Term。

此处设计新的log类型如下。

type Log struct {
Entries []LogEntry
Base int
}

需要注意的是,Log.Entries从1开始存储,因此Log.Entries[0].Term用于存储lastIncludeTermLog.Base表示Log.Entries[0]的逻辑位置,也是lastIncludeIndex的值。

本例中,lastIncludeIndex = 4,lastIncludeTerm = 2,snapshot = [1,1,1,2]。

为Log添加相关成员函数。

func (l *Log) size() {
return l.Base + len(l.Entries)
} func (l *Log) get(i int) {
return l.Entries[i-l.Base]
} func (l *Log) set(i int, e LogEntry) {
l.[i-l.Base] = e
}

Snapshot()

Snapshot(index int, snapshot []byte)由状态机调用,传入的index表示lastIncludeIndexsnapshot由状态机生成,需要Raft保存,用于发送Follower时需要。

func (rf *Raft) Snapshot(index int, snapshot []byte) {
if index <= rf.log.Base {
return
}
rf.log.Entries = rf.log.Entries[index-rf.log.Base:]
rf.log.Base = index
rf.snapshot = snapshot
rf.saveStateAndSnapshot()
}

index <= rf.log.Base说明传入的snapshot是一个旧的快照。

InstallSnapshot RPC

首先是heartbeat()应该新增如下逻辑,当Leader中应被同步到Follower的日志在快照中时,将快照发送给Follower。

if next <= rf.log.Base {
go rf.sendSnapshot(i, peer, InstallSnapshotArgs{
Term: rf.currentTerm,
LastIncludeIndex: rf.log.Base,
LastIncludeTerm: rf.log.Entries[0].Term,
Data: rf.snapshot,
})
}

sendSnapshot()和发送日志序列类似。

func (rf *Raft) sendSnapshot(id int, peer *labrpc.ClientEnd, args InstallSnapshotArgs) {
reply := InstallSnapshotReply{}
ok := peer.Call("Raft.InstallSnapshot", &args, &reply)
if !ok {
return
} if reply.Term > rf.currentTerm {
rf.toFollower(reply.Term)
return
} rf.nextIndex[id] = args.LastIncludedIndex + 1
rf.matchIndex[id] = args.LastIncludedIndex
}

InstallSnapshot()AppendEntries()类似,args.LastIncludedIndex <= rf.log.Base也是一样的,表示一个旧的快照。

func (rf *Raft) InstallSnapshot(args *InstallSnapshotArgs, reply *InstallSnapshotReply) {
rf.lastRecv = time.Now() if args.Term > rf.currentTerm {
rf.toFollower(args.Term)
}
reply.Term = rf.currentTerm if args.Term < rf.currentTerm || args.LastIncludedIndex <= rf.log.Base {
return
} rf.applyCh <- ApplyMsg{
SnapshotValid: true,
Snapshot: args.Data,
SnapshotTerm: args.LastIncludedTerm,
SnapshotIndex: args.LastIncludedIndex,
}
}

注意:快照是状态机中的概念,需要在状态机中加载快照,因此要通过applyCh将快照发送给状态机,但是发送后Raft并不立即保存快照,而是等待状态机调用CondInstallSnapshot(),如果从收到InstallSnapshot()后到收到CondInstallSnapshot()前,没有新的日志提交到状态机,则Raft返回True,Raft和状态机保存快照,否则Raft返回False,两者都不保存快照。

如此保证了Raft和状态机保存快照是一个原子操作。当然在InstallSnapshot()将快照发送给状态机后再将快照保存到Raft,令CondInstallSnap()永远返回True,也可以保证原子操作,但是这样做必须等待快照发送给状态机完成,但是rf.applyCh <- ApplyMsg是有可能阻塞的,由于InstallSnapshot()需要持有全局的互斥锁,这可能导致整个节点无法工作。

为什么要保证原子操作?因为负责将commit状态的日志提交到状态机的goroutine不负责快照部分,因此必须是先保存快照,再同步日志。

本系列文章给出的代码为了好读,没有考虑同步问题,正常来讲applyCh <- ApplyMsg这个操作是需要令起一个goroutine去做的。

如何判断InstallSnapshot()CondInstallSnapshot()之间没有新的日志提交到状态机呢?这里使用commitIndex来判断,当lastIncludeIndex <= commitIndex时,说明这期间原本没有的快照部分的日志补全了,虽然commit状态并不一定是apply状态,但这里以commit为准,更安全。

func (rf *Raft) CondInstallSnapshot(lastIncludedTerm int, lastIncludedIndex int, snapshot []byte) bool {
if lastIncludedIndex <= rf.commitIndex {
return false
} if lastIncludedIndex <= rf.log.size()-1 && rf.log.get(lastIncludedIndex).Term == lastIncludedTerm {
rf.log.Entries = append([]LogEntry(nil), rf.log.Entries[lastIncludedIndex-rf.log.Base:]...)
} else {
rf.log.Entries = append([]LogEntry(nil), LogEntry{Term: lastIncludedTerm})
} rf.log.Base = lastIncludedIndex
rf.snapshot = snapshot
rf.commitIndex = lastIncludedIndex
rf.lastApplied = lastIncludedIndex
rf.saveStateAndSnapshot()
return true
}

需要注意的是,这里截断rf.log.Entries的方式,如果使用s = s[i:]这样的方式,依然维持对底层数组全部元素的引用,是无法被GC回收的。

还有一点要注意的是,不要忘记在Make()中读取持久化的snapshot,并初始化lastApplied的值。

最后,为了证明我不是在乱写,附上我的测试结果。

MIT 6.824 Lab2D Raft之日志压缩的更多相关文章

  1. MIT 6.824 Llab2B Raft之日志复制

    书接上文Raft Part A | MIT 6.824 Lab2A Leader Election. 实验准备 实验代码:git://g.csail.mit.edu/6.824-golabs-2021 ...

  2. MIT 6.824 Lab2C Raft之持久化

    书接上文Raft Part B | MIT 6.824 Lab2B Log Replication. 实验准备 实验代码:git://g.csail.mit.edu/6.824-golabs-2021 ...

  3. MIT 6.824 Lab2A Raft之领导者选举

    实验准备 实验代码:git://g.csail.mit.edu/6.824-golabs-2021/src/raft 如何测试:go test -run 2A -race 相关论文:Raft Exte ...

  4. Sqlserver2008日志压缩

    SqlServer2008日志压缩语句如下: USE [master] GO ALTER DATABASE DBName SET RECOVERY SIMPLE WITH NO_WAIT GO ALT ...

  5. Raft 实现日志复制同步

    Raft 实现日志复制同步 本篇文章以 John Ousterhout(斯坦福大学教授) 和 Diego Ongaro(斯坦福大学获得博士学位,Raft算法发明人) 在 Youtube 上的讲解视频及 ...

  6. 我是如何利用Hadoop做大规模日志压缩的

    背景 刚毕业那几年有幸进入了当时非常热门的某社交网站,在数据平台部从事大数据开发相关的工作.从日志收集.存储.数据仓库建设.数据统计.数据展示都接触了一遍,比较早的赶上了大数据热这波浪潮.虽然今天的人 ...

  7. 图解Raft之日志复制

    日志复制可以说是Raft集群的核心之一,保证了Raft数据的一致性,下面通过几张图片介绍Raft集群中日志复制的逻辑与流程: 在一个Raft集群中只有Leader节点能够接受客户端的请求,由Leade ...

  8. Shell + crontab 实现日志压缩归档

    Shell + crontab 实现日志压缩归档 crontab # archive the ats log days. */ * * * * root /bin/>& shell #! ...

  9. MIT 6.824 lab1:mapreduce

    这是 MIT 6.824 课程 lab1 的学习总结,记录我在学习过程中的收获和踩的坑. 我的实验环境是 windows 10,所以对lab的code 做了一些环境上的修改,如果你仅仅对code 感兴 ...

随机推荐

  1. 『现学现忘』Git对象 — 15、blob对象介绍

    目录 (一)Git对象的存放目录 (二)Git中对象类型 (三)blob对象 1.blob对象说明 (1)blob对象定义 (2)blob对象说明 (3)blob对象存储的方式 (4)查看blob对象 ...

  2. WIN10 使用注册表设置单应用KIOSK模式(不限win10版本)

    注意事项 下载安装Autologon.exe. 以下示例采用账号:- 账户:'KIOSK'- 密码:'KIOSK' 设置步骤 新建用户 1.进入windows设置->账户->其他用户,点击 ...

  3. Java实用类

    //String类常用方法 public int length()//获取String对象的字符序列的长度 n=s.length(); public boolean equals(String s)/ ...

  4. 【代理是什么?】nginx快速入门+反向代理hexo个人博客

    @ 目录 前言 本文说明 请大家务必查看 工作原理 正向代理 反向代理 环境准备 详细版 入门:搭建步骤 配置阿里云epel源: yum安装nginx: 启动nginx: 配置default.conf ...

  5. 基于casbin的RBAC权限实践

    五一假期疫情封在家也没事做,就想来优化一下一个前端容器小项目 之前的TODOlist里面有一项是权限这块时隔2年了还一直没有动手 迟迟没搞主要还是我太懒了,哈哈 其实我一直想要找一个轻量级的权限通用方 ...

  6. VS Code 真的会一统江湖吗?

    关注「开源Linux」,选择"设为星标" 回复「学习」,有我为您特别筛选的学习资料~ 作者 | ROBEN KLEENE / 策划 | 万佳原文链接:https://blog.ro ...

  7. 【拖拽可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!

    "整篇文章较长,干货很多!建议收藏后,分章节阅读." 一.设计方案 整体设计方案思维导图: 整篇文章,也将按照这个结构来讲解. 若有重点关注部分,可点击章节目录直接跳转! 二.项目 ...

  8. Vue的computed和watch的使用和区别

    一.computed: 模板内表达式非常便利,可用于简单计算,当模板内放入太多的逻辑时,模板会过重且难以维护:可以使用computed替代 计算属性是基于它们的响应式依赖进行缓存的,当依赖的响应式数据 ...

  9. 魔改了一下bootstrap-treeview组件,发布个NPM包体验一下

    前言 之前在这篇文章 基于.NetCore开发博客项目 StarBlog - (8) 分类层级结构展示 中说到,我为了让文章分类列表支持层级结构,用了一个树形组件,不过这个组件太老了,使用的Boots ...

  10. JavaSE_多线程入门 线程安全 死锁 状态 通讯 线程池

    1 多线程入门 1.1 多线程相关的概念 并发与并行 并行:在同一时刻,有多个任务在多个CPU上同时执行. 并发:在同一时刻,有多个任务在单个CPU上交替执行. 进程与线程 进程:就是操作系统中正在运 ...