zookeeper原理解析-数据存储

Zookeeper内存结构

Zookeeper是怎么存储数据的，什么机制保证集群中数据是一致性，在网络异常，当机以及停电等异常情况下恢复数据的，我们知道数据库给我们提供了这些功能，其实zookeeper也实现了类似数据库的功能。

1. Zookeeper内存结构

Zookeeper数据在内存中的结构类似于linux的目录结构

DataTree代表这个目录结构， DataNode代表一个节点

         DataTree:

                   默认初始化三目录

                  ）""

          ) "/zookeeper"

         ) "/zookeeper/quota"

         DataNode

                   表示一个节点

                 ） 存储了父节点的引用

                 ） 节点的权限信息

                 ） 子节点路径集合

Snapshot

Snapshot是datatree在内存中某一时刻的影像，zookeeper有一定的机制会定时生成datatree的snapshot。FileSnap实现了SnapShot接口负责将数据写入文件中，下面我们来看看snap相关内容。

2.1 snapshot文件格式

Snapshot是以二进制形式存在在文件的，我们用ue打开一个新的snapshot文件

Snapshot文件的中数据大体可以分为两部分header和body。

Header数据格式:

FileHeader{

   int magic  //魔数   常量ZKSN  代表zookeeper snapshot文件

   int  version  //版本  常量 2

   long   dbid   //dbid  常量 -1

}

这里很奇怪 version和dbid都是常量，那还有什么意思，也许是保留字段为后续版本使用。

由头部字段可以计算出头部信息占用 4 + 4 + 8 =16bit的固定长度

5A 4B 53 4E 就是魔术ZKSN

00 00 00 02 就是dbid号2

FF FF FF FF FF FF FF FF就是十六进制的-1

public voidserialize(OutputArchive oa, String tag) throws IOException {

        scount = ;

        serializeList(longKeyMap, oa);

        serializeNode(oa, newStringBuilder(""));

        if (root != null) {

            oa.writeString("/","path");

        }

    }

2.1)序列化longKeyMap是存储在datatree中的acl权限集合

           readInt("map") //acl的映射个数？

        while (map > ) {

            readLong("long") //这个long值longKeyMap的key，作用？是这一组acl的key

         readInt（"acls"）

         while (acls) {

              readInt("perms")

           readString("scheme")

           readString("id")

           }

     }

2.2)存储datatree中数据节点

        readString("path")//第一个datanode ""

    while(!path.equals("/")) {   //  "/"代表路径结束

           readRecord(node, "node")包括：

           readBuffer("data")

           readLong("acl")

           deserialize(archive,"statpersisted") 状态存储包括:

                          readLong("czxid")  //createNode时事务号

                            readLong("mzxid")  //createNode时与Czxid同,setData时的事务号

                            readLong("ctime")  // 创建节点时间

                            readLong("mtime")  //createNode时与ctime相同，setData时间

                            readInt("version")  //createNode版本为0，setData的数据版本号

                            readInt("cversion") //createNode版本为0，增加/删除子节点时父节点+1

                            readInt("aversion") //createNode版本为0，setACL时节点的版本号

                            readLong("ephemeralOwner") // 临时节点表示sessionid,非临时节点这个值为0

                            readLong("pzxid")  //createNode时与Czxid同,增加/删除子节点时为子节点事务号

        readString("path") //读取下一个路径

  }

）  文件尾部校验数据

    2F  snapshot文件结尾5位数据用来校验snapshot文件是否有效

      01一个int的数值就是数字1，代表后面1一个字符数据

   2F 就是snapshot的结束符/

Body数据格式：

Snapshot文件中头部信息之后，紧接着就是body部分的信息，body数据大小是动态不是固定。

1） Map<Long, Integer> sessionWithTimeoutbody信息前面部分存储的是内存中活着的session以及session的超时时间

oa.writeInt(sessSnap.size(),"count");

for (Entry<Long, Integer> entry :sessSnap.entrySet()) {

oa.writeLong(entry.getKey().longValue(), "id");

oa.writeInt(entry.getValue().intValue(),"timeout");

}

由上面序列到文件代码可以看出先写入一个int类型字段用来存储sessionWithTimeout的个数，然后在遍历集合以一个long一个int的形式写入

2）紧接着就是对datatree序列化到文件了

我们看下datatree的序列化方法

4）Snapshot序列化

5）Snapshot反序列化

5)TxnLog事务日志

事务日志文件用来记录事物操作，每一个事务操作如添加，删除节点等等，都会在事务日志中记录一条记录，用来在zookeeper异常情况下，通过txnlog和snapshot文件来恢复数据，下面我们来看下txnLog事务日志文件的格式

打开一个事务日志文件看看

一个日志文件LogFile: FileHeader TxnList ZeroPad三部分组成

1）日志文件头FileHeader: {

magic 4bytes (ZKLG) //常量代表

version 4bytes //常量2

dbid 8bytes //这个没啥用，就是默认值0

}

头文件是固定长度 16 = 4 + 4 + 8数据，它的值也固定

2） TxnList代表记录记录集合，txn代表一条记录

Txn：checksum Txnlen TxnHeaderRecord 0x42由顺序的五部分组成

//序列化TxnHeader Record记录到byte[]

byte[] buf = Util.marshallTxnEntry(hdr, txn);

Checksum crc = makeChecksumAlgorithm();

//根据指定数组更新校验值

crc.update(buf, 0, buf.length);

//将校验吗写入输出流

oa.writeLong(crc.getValue(), "txnEntryCRC");

//将TxnHeader Record数据写入到输出流

//1.先计算buf数据长度写入

//2.写入buf数组数据

//3.记录尾部以’B’字符结尾，写入0x42

Util.writeTxnBytes(oa, buf);

2.1） checksum校验位计算，是由Adler32校验算法计算TxnHeader Record序列化后的字节码（跟文档说明有出入，文档说是由Txnlen TxnHeaderRecord 0x42计算出来的, 可是看代码不是，难道我理解错了????????）

2.2） TxnLen:记录数据长度包括记录头TxnHeader和记录Record

2.3）TxnHeader: {

sessionid 8bytes

cxid 4bytes // 与客户端交互的xid

zxid 8bytes // 服务器端生成的事务id

time 8bytes // 时间

type 4bytes // 事务操作的类型

}

2.4）Record：事务记录的内容，由jute规范定义了序列化反序列化流程，各个事务操作都实现了Record接口，下面看下创建的事务操作记录

public class CreateTxn implements Record {

privateString path; //创建路径

privatebyte[] data; //节点数据内容

privatejava.util.List<org.apache.zookeeper.data.ACL> acl; //节点权限

privateboolean ephemeral; //是否临时节点

privateint parentCVersion; //父节点的版本号

//下面过程就是序列化过程，反序列化类似

publicvoid serialize(OutputArchive a_, String tag) throws Java.io.IOException {

a_.startRecord(this,tag);

a_.writeString(path,"path");

a_.writeBuffer(data,"data");

{

a_.startVector(acl,"acl");

if(acl!= null) { int len1 =acl.size();

for(int vidx1 = 0; vidx1<len1;vidx1++) {

org.apache.zookeeper.data.ACL e1 = (org.apache.zookeeper.data.ACL)acl.get(vidx1);

a_.writeRecord(e1,"e1");

}

a_.endVector(acl,"acl");

}

a_.writeBool(ephemeral,"ephemeral");

a_.writeInt(parentCVersion,"parentCVersion");

a_.endRecord(this,tag);

}

2.5）0x42:每条事务记录尾部以’B’字符结尾就是0x42

3）每个文件尾部都用一个字符 0 填充，工具Util.padLogFile扩充文件的时候在尾部填写上

6)FileTxnLog& FileTxnSnapLog工具

FileTxnLog类用来操作事务记录文件下面我们来看看这个类主要实现方法

4.1）append方法：用来向文件尾部添加一条记录

4.1.1）判断当前输入流logStream是否已清空（在同步处理器SyncRequestProcessor中据一定算法得出一个count，记录大于count就要rollLog，开启一个新的文件，算法是: 100000/2 + random.nextInt(100000/2), 这个十万是一个默认值可配置），清空开启一个新的文件写入

4.1.2）padFile()判断是否要扩充文件容量预分配buffer，当buffer容量小于等于4k的时候预分配，每次扩充预分配64k容量

4.1.3）数据序列化，写入输入流缓存

4.2）read(zxid): 读取事务日志，这个方法在服务当机恢复的时候，用来遍历事务日志来恢复数据。Zxid是事物日志号递增生成，在FileTxnLog中会将大于zxid的所有日志文件组合成一个FileTxnIterator用来遍历从zxid开始的所有日志

4.2.1）FileTxnIterator的构造器中调用init方法，init方法中过滤出所有需要读的日志文件，并利用goToNextLog()方法打开第一个日志日志文件的输入流

4.2.2）FileTxnIterator的next方法用来从日志文件中读取一条记录，校验并反序列化出来，读取成功返回true，如果读到了文件末尾调goToNextLog()读下一个文件，以此递归直到最后

4.2.3)FileTxnIterator的getTxn()方法，返回next()方法中读取的记录

4.3）commit()方法，将流中数据刷到硬盘SyncRequestProcessor中任务会定时调用异步刷盘

4.4）truncate(zxid)方法，用来删除日志，主要是在恢复数据的时候，利用leader的最后有效zxid，来删除learner的无效多余的事务记录。类似于数据库中的truncate操作概念，它并不是一条一条删除记录，大于zxid的文件直接将文件删除掉，zxid所在文件直接修改文件的长度，将文件长度设置到zxid所在的位置

4.5）序列化事务记录

4.6）反序列化事务记录

5FileTxnSnapLog

这是一个工具类主要用来操作TxnLog和Snapshot文件，我们主要关注一下restore方法

7)ZKDatabase

ZKDatabase在内存中维护了zookeeper的sessions， datatree和commit logs集合。当zookeeper server启动的时候会将txnlogs和snapshots从磁盘读取到内存中

6.1）loadDatabase: 跟数据库的启动类似zookeeper服务启动结合txnlogs和snapshot， snapshot是内存数据的某个点一份影像，takeSnapshot操作还是很耗时，为了性能根据某算法（在同步处理器SyncRequestProcessor中据一定算法得出一个count，记录大于count就要takeSnapshot，算法是: 100000/2 + random.nextInt(100000/2),这个十万是一个默认值可配置）计算出一个点来异步做一次takeSnapShot操作，这个跟数据库实现原理上很类似，但是这样在非正常关机情况下，最新有效的那个snapshot并不是内存中最新的数据，所以需要利用txnLogs来把没有生成snapshot的操作在内存重新执行一边来恢复到非正常关闭服务那一刻内存情况。

下面我们来看一下loadDatabase的流程：

6.1.1) 构建一个PlayBackListener对象

6.1.2) snapshot的反序列，倒叙排目录下的snapshot文件，遍历查找出最新的那个有效snapshot文件进行反序列化到内存（具体流程查看snapshot那部分介绍），snapshot的反序列后我们会知道snapshot最新的zxid叫做lastProcessedZxid, 这个lastProcessedZxid之前的事务操作，都成功执行并序列到snapshot中可恢复到内存，lastProcessedZxid之后的操作只有事务日志，不能直接通过snapshot恢复。

6.1.2) lastProcessedZxid+1从事务日志文件txnLog读取事务操作

FileTxnLog txnLog = newFileTxnLog(dataDir);

TxnIterator itr =txnLog.read(dt.lastProcessedZxid+1);

遍历TxnIterator，执行processTransaction方法，就是把事务操作在内存中在执行一边把丢失的操作补回来

同时将事务操作通过PlayBackListener添加到commitedLog集合，commitedLog的事务操作在服务恢复的时候会同步到其他leaner server, 因为很有可能其他leaner server也没有及时的takesnapshot

返回最后的事务日志zxid给database，作为ZKDatabase的最新事物id

6.1.3) 在zookeeperServer成功loadDatabase后，会及时主动的做一次takesnapshot操作来得到一份最新的内存影像

8)数据存储小结

Zookeeper数据是以文件形式存储在硬盘上的，以snapshot为主，txnlog为辅。因为当对内存数据进行变更的时候，会保证将事务操作记入log日志，而snapshot只是内存某一个时刻影像，为了性能takeSnapshot生成snapshot并不是实时的，而是由后台线程根据一定规则处理的

来看看snapshot和txnlog在磁盘上的文件

文件名是以log.或者snapshot.加上一串long的16进制数字组成，这个long值就是zxid服务器端事务id

Snapshot文件名生成， FileTxnSnapLog.save方法中

long lastZxid = dataTree.lastProcessedZxid;

FilesnapshotFile = new File(snapDir, Util.makeSnapshotName(lastZxid));

如上代码创建一个新的snapshot文件，工具Util用来用来创建文件名

public static String makeSnapshotName(long zxid) {

return "snapshot." +Long.toHexString(zxid);

}

日志Log文件生成，在FileTxnLog.apend方法中，如果被执行了rollLog方法，那么文件输入流会被清空，这里会创建一个新的文件

if (logStream==null) {

logFileWrite = new File(logDir,("log." + Long.toHexString(hdr.getZxid())));

fos = newFileOutputStream(logFileWrite);

………

}

如上代码可以看出文件名是最新请求的zxid，这里snapshot和log文件都和zxid有关，那么下面我们来看看zxid。

Zxid

当客户端一个事务请求操作是leader的PrepRequestProcessor处理器会对请求进行预处理包括生成zxid设置到请求中去，zxid的生成是通过调用ZookeeperServer.getNextZxid生成

protected long hzxid = 0;

synchronized long getNextZxid() {

return ++hzxid;

}

它是hzxid一个自增的long值，有没有奇怪这个变量取名叫做hzixd多了一个h， h我的理解是high的缩写代表64位long的高32位。Zxid的分为两部分高32位用来存储每次选举的时代epoch，低32位用来存储事务请求的自增序列。所谓选举时代就是一个数值，标记代表一次选举，跟年份一样是自增的。每次服务器启动或者zookeeper异常导致重新选举都会在原来epoch值加一代表一个新的时代，工具类ZxidUtils用来操作前32或者后32位

public class ZxidUtils {

static public long getEpochFromZxid(long zxid) {

return zxid >> 32L;

}

static public long getCounterFromZxid(long zxid) {

return zxid & 0xffffffffL;

}

static public long makeZxid(long epoch,long counter) {

return (epoch << 32L) | (counter & 0xffffffffL);

}

static public String zxidToString(long zxid) {

return Long.toHexString(zxid);

}

比如现在epoch=4代表经历了4次选举，如果重新选举后epoch值为5，通过工具类的zxid=hzxid=ZxidUtils.makeZxid(5,0)= 21474836480,此时低32重新开始值为0，如果这时来了新的请求值为zxid=21474836481=21474836480+ 1 = ZxidUtils.makeZxid(5, 1)

zookeeper原理解析-数据存储的更多相关文章

1.zookeeper原理解析-数据存储之Zookeeper内存结构
Zookeeper是怎么存储数据的,什么机制保证集群中数据是一致性,在网络异常,当机以及停电等异常情况下恢复数据的,我们知道数据库给我们提供了这些功能,其实zookeeper也实现了类似数据库的功能. ...
解析数据存储MySQL
为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html, data,num几大典型类型分别对应存储. 创建 ...
zookeeper原理解析-序列化
1)底层通信数据封装与操作 BinaryInputArchive& BinaryOutputArchive底层通信数据封装与操作 BinaryInputArchiv ...
zookeeper原理解析-选举
1)QuorumPeerMain加载 Zookeeper集群启动的入口类是QuorumPeerMain来加载配置启动QuorumPeer线程.首先我们来看下QuorumPeer, 谷歌翻译quorum ...
Zookeeper原理分析之存储结构Snapshot
Zookeeper内存结构 Zookeeper数据在内存中的结构类似于linux的目录结构,DataTree代表这个目录结构, DataNode代表一个节点.DataTree默认初始化三个目录:&qu ...
ZooKeeper学习之路（八）ZooKeeper原理解析
ZooKeeper中的各种角色 ZooKeeper与客户端每个Server在工作过程中有三种状态: LOOKING:当前Server不知道leader是谁,正在搜寻 LEADING:当前Server ...
ZooKeeper原理解析
目录 ZooKeeper中的各种角色 ZooKeeper与客户端 Zookeeper节点数据操作流程 Paxos 算法概述(ZAB 协议) ZooKeeper 的选主机制选择机制中的概念选举消息内 ...
zookeeper原理解析-客户端与服务器端交互
Zookeeper集群中server数量总是确定的,所以集群中的server交互采用比较可靠的bio长连接模型:不同于集群中sever间交互zookeeper客户端其实数量是未知的,为了提高zooke ...
zookeeper原理解析-服务器端处理流程
1)处理器链这部分内容我们主要讲解zookeeper请求在zookeeper server端的处理流程,对于不同角色的zookeeper具有不同的处理流程, ZookeepeerServer的sta ...

随机推荐

node.js express安装及示例网站搭建
1.首先肯定是要安装Node.JS windows cmd依次输入如下命令: cd C:\Program Files\nodejs\ npm install -g expressnpm install ...
ArcGIS Engine开发之地图文档保存
在对地图文档进行修改后,经常需要对其进行保存.地图文档的保存有直接保存和另存为两种方式.这里的地图文档的修改指的是修改地图文档文件记录信息,不是对空间数据的编辑. 1.地图文档保存具体实现的思路: ...
react-native-vector-icons的简单使用,图片,按钮,标签视图,导航条
ICONS是可以直接使用图片名, 就能加载图片的三方,使用很方便, 你不需要在工程文件夹里塞各种图片, 节省很多空间,下面就来看看怎么使用吧! 1. 首先打开terminal进入到我们的工程文件夹下, ...
Android Support 包知识
Android Support Library包是一组代码库, 它提供了向后版本的framework API的兼容, 这些代码库实现的效果和只能在指定版本中使用的API一样好. 每个Support L ...
React Native 之 Touchable 介绍与使用
前言学习本系列内容需要具备一定 HTML 开发基础,没有基础的朋友可以先转至 HTML快速入门(一) 学习本人接触 React Native 时间并不是特别长,所以对其中的内容和性质了解可能会有所 ...
iOS UIApplication sharedapplication用法
应用中打开其他应用我们来讨论一下,在iOS开发中,如何实现从app1打开app2. 基本的思路就是,可以为app2定义一个URL,在app1中通过打开这个URL来打开app2,在此过程中,可以传送一 ...
(十三)Maven插件解析运行机制
这里给大家详细说一下Maven的运行机制,让大家不仅知其然,更知其所以然. 1.插件保存在哪里? 与我们所依赖的构件一样,插件也是基于坐标保存在我们的Maven仓库当中的.在用到插件的时候会先从本地仓 ...
Visual Studio2015 常用快捷键
项目相关的快捷键 Ctrl + Shift + B = 生成项目 Ctrl + Alt + L = 显示Solution Explorer(解决方案资源管理器) Shift + Alt+ C = 添加 ...
Visual Studio 中 Build 和 Rebuild 的区别
因为之前写的程序比较小,编译起来比较快,所以一直都没有太在意 Build 和 Rebuild 之间的区别,后来发现两个还是有很大不同. Build 只针对在上次编译之后更改过的文件进行编译,在项目比较 ...
机器学习实战笔记(Python实现)-04-Logistic回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...

zookeeper原理解析-数据存储

Zookeeper内存结构

zookeeper原理解析-数据存储的更多相关文章

随机推荐

热门专题