FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。它的作用不言而喻,在HA出现之前,NameNode因为各种原因宕机后,若要恢复或在其他机器上重启NameNode,重新组织元数据,就需要加载对应的FSImage文件、FSEditLog文件,并在内存中重做FSEditLog文件中的事务条目。本节,我们先来看下FSImage文件格式,及其内部数据是如何组织的。

通过翻看HDFS中加载FSImage文件的代码,从FSNamesystem的loadFSImage()方法开始,我将HDFS集群上的一个FSImage文件放到本地Windows系统中的F盘下,并写了如下方法解析文件,并打印关键内容,如下:

  1. import java.io.IOException;
  2. import java.io.File;
  3. import java.util.List;
  4. import org.junit.Test;
  5. import java.io.ByteArrayInputStream;
  6. import java.io.RandomAccessFile;
  7. import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary;
  8. import org.apache.hadoop.hdfs.server.namenode.FsImageProto.FileSummary.Section;
  9. public class TestImageUtil {
  10. @Test
  11. public void testImage() {
  12. // 文件头字符串HDFSIMG1对应byte[]
  13. byte[] fileHead = "HDFSIMG1".getBytes();
  14. RandomAccessFile raFile = null;
  15. try {
  16. // 创建文件file,对应为f盘下FSImage文件fsimage_0000000000002311798
  17. File file = new File("f:/fsimage_0000000000002311798");
  18. raFile = new RandomAccessFile(file, "r");
  19. // 文件summary长度域所占大小为4
  20. final int FILE_LENGTH_FIELD_SIZE = 4;
  21. System.out.println("文件summary长度域大小:FILE_LENGTH_FIELD_SIZE=" + FILE_LENGTH_FIELD_SIZE);
  22. // 获取FSImage文件长度
  23. long fileLength = raFile.length();
  24. System.out.println("获取FSImage文件长度:fileLength=" + fileLength);
  25. // 创建文件头byte[]数组fileHeadTmp,用于存储文件头byte[]数组,大小为上述fileHead数组大小
  26. byte[] fileHeadTmp = new byte[fileHead.length];
  27. // 读入文件头至byte[]数组fileHeadTmp
  28. System.out.println("文件从头开始读取" + fileHeadTmp.length + "个byte至byte[]数组fileHeadTmp");
  29. raFile.readFully(fileHeadTmp);
  30. // 获取文件头长度
  31. System.out.println("获取文件头长度:fileHeadLength=" + fileHead.length);
  32. // 将byte[]数组fileHeadTmp转换成字符串fileHeadString
  33. String fileHeadString = new String(fileHeadTmp);
  34. // 验证文件头字符串
  35. System.out.println("fileHeadString=" + fileHeadString);
  36. // 文件file通过raFile.seek()方法定位到文件summary长度字段起始处,即文件大小减去文件summary长度域所占字节数4
  37. raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE);
  38. System.out.println("文件定位到文件summary长度开始处:" + (fileLength - FILE_LENGTH_FIELD_SIZE));
  39. // 读入一个int,即文件长度summaryLength
  40. int summaryLength = raFile.readInt();
  41. System.out.println("获取文件summary部分长度:summaryLength=" + summaryLength);
  42. // 文件file通过raFile.seek()方法定位到文件summary部分开始处,即文件大小减去文件长度所占字节数4,再减去文件内容总长度
  43. raFile.seek(fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength);
  44. System.out.println("文件定位到文件summary部分开始处:" + (fileLength - FILE_LENGTH_FIELD_SIZE - summaryLength));
  45. // 再从当前位置开始读入文件summary部分内容
  46. // 构造文件长度summaryLength大小的byte[]数组
  47. byte[] summaryBytes = new byte[summaryLength];
  48. // 读取文件内容至数组summaryBytes
  49. raFile.readFully(summaryBytes);
  50. System.out.println("从当前位置开始读入文件summary部分内容至summaryBytes数组");
  51. FileSummary summary = FileSummary
  52. .parseDelimitedFrom(new ByteArrayInputStream(summaryBytes));
  53. System.out.println("解析文件summary部分内容如下:");
  54. System.out.println("1、ondiskVersion=" + summary.getOndiskVersion());
  55. System.out.println("2、layoutVersion=" + summary.getLayoutVersion());
  56. System.out.println("3、codec=" + summary.getCodec());
  57. System.out.println("4、section");
  58. List<Section> sectionsList = summary.getSectionsList();
  59. for (Section section : sectionsList) {
  60. System.out.println(" ");
  61. System.out.println("name=" + section.getName());
  62. System.out.println("length=" + section.getLength());
  63. System.out.println("offset=" + section.getOffset());
  64. }
  65. } catch (Exception e) {
  66. e.printStackTrace();
  67. } finally {
  68. if (raFile != null) {
  69. try {
  70. raFile.close();
  71. } catch (IOException e) {
  72. e.printStackTrace();
  73. }
  74. }
  75. }
  76. }
  77. /**
  78. * Supported section name. The order of the enum determines the order of
  79. * loading.
  80. */
  81. public enum SectionName {
  82. NS_INFO("NS_INFO"), STRING_TABLE("STRING_TABLE"), EXTENDED_ACL(
  83. "EXTENDED_ACL"), INODE("INODE"), INODE_REFERENCE(
  84. "INODE_REFERENCE"), SNAPSHOT("SNAPSHOT"), INODE_DIR("INODE_DIR"), FILES_UNDERCONSTRUCTION(
  85. "FILES_UNDERCONSTRUCTION"), SNAPSHOT_DIFF("SNAPSHOT_DIFF"), SECRET_MANAGER(
  86. "SECRET_MANAGER"), CACHE_MANAGER("CACHE_MANAGER");
  87. private static final SectionName[] values = SectionName.values();
  88. public static SectionName fromString(String name) {
  89. for (SectionName n : values) {
  90. if (n.name.equals(name))
  91. return n;
  92. }
  93. return null;
  94. }
  95. private final String name;
  96. private SectionName(String name) {
  97. this.name = name;
  98. }
  99. }
  100. }

关于代码解释,我们会在专门的FSImage文件加载源码分析相关文章中进行详细介绍,本文只关注FSImage文件的总体格式。

执行上述方法,打印内容输出如下:

  1. 文件summary长度域大小:FILE_LENGTH_FIELD_SIZE=4
  2. 获取FSImage文件长度:fileLength=1154156
  3. 文件从头开始读取8个byte至byte[]数组fileHeadTmp
  4. 获取文件头长度:fileHeadLength=8
  5. fileHeadString=HDFSIMG1
  6. 文件定位到文件summary长度开始处:1154152
  7. 获取文件summary部分长度:summaryLength=231
  8. 文件定位到文件summary部分开始处:1153921
  9. 从当前位置开始读入文件summary部分内容至summaryBytes数组
  10. 解析文件summary部分内容如下:
  11. 1、ondiskVersion=1
  12. 2、layoutVersion=-60
  13. 3、codec=
  14. 4、section
  15. name=NS_INFO
  16. length=27
  17. offset=8
  18. name=INODE
  19. length=1093067
  20. offset=35
  21. name=INODE_DIR
  22. length=60225
  23. offset=1093102
  24. name=FILES_UNDERCONSTRUCTION
  25. length=345
  26. offset=1153327
  27. name=SNAPSHOT
  28. length=68
  29. offset=1153672
  30. name=SNAPSHOT_DIFF
  31. length=36
  32. offset=1153740
  33. name=INODE_REFERENCE
  34. length=0
  35. offset=1153776
  36. name=SECRET_MANAGER
  37. length=9
  38. offset=1153776
  39. name=CACHE_MANAGER
  40. length=7
  41. offset=1153785
  42. name=STRING_TABLE
  43. length=129
  44. offset=1153792

不难看出,文件的总长度为1154156,这与我通过windows系统下右击-属性的方式查看结果是一致的,如下:


        (一)文件的起始位置(下标我们从0开始),0-7处为文件头信息,占8个byte的"HDFSIMG1";

(二)然后是接下来是10个section区域,这部分在FSImage文件中所占起止位置为8-1153920,这些是根据下面的summary区域的分析得到的结论,section分别如下:

1、8-34:占27个byte的section--NS_INFO,命名系统NameSystem信息section区域,具体内容后续文章再讲;

2、35-1093101:占1093067个byte的section--INODE,HDFS中INODE节点section区域,具体内容后续文章再讲;

3、1093102-1153326:占60225个byte的section--INODE_DIR,HDFS中INODE目录节点section区域,具体内容后续文章再讲;

4、1153327-1153671:占345个byte的section--FILES_UNDERCONSTRUCTION,HDFS中FILES_UNDERCONSTRUCTION处于构建状态文件部分section区域,具体内容后续文章再讲;

5、1153672-1153739:占68个byte的section--SNAPSHOT,HDFS中SNAPSHOT快照部分section区域,具体内容后续文章再讲;

6、1153740-1153775:占36个byte的section--SNAPSHOT_DIFF,HDFS中SNAPSHOT_DIFF部分section区域,具体内容后续文章再讲;

7、1153776-?:占0个byte的section--INODE_REFERENCE,HDFS中INODE_REFERENCE节点引用部分section区域,具体内容后续文章再讲,实际上本文件中没有这部分,为了体现FSImage文件的完整性,还是增加这部分的描述;

8、1153776-1153784:占9个byte的section--SECRET_MANAGER,HDFS中SECRET_MANAGER部分section区域,具体内容后续文章再讲;

9、1153785-1153791:占7个byte的section--CACHE_MANAGER,HDFS中CACHE_MANAGER部分section区域,具体内容后续文章再讲;

10、1153792-1153920:占129个byte的section--STRING_TABLE,HDFS中STRING_TABLE部分section区域,具体内容后续文章再讲;

(三)再接下来是文件summary区域,这部分在FSImage文件中所占起止位置为1153921-1154151,长度为231,它主要标识了上述各section区域的区域名name、在FSImage文件所占长度length及其起始位置offset,另外还有三个十分总要的变量,FSImage文件在磁盘上的版本号ondiskVersion、布局layout版本号layoutVersion及其解压/压缩器codec,前面两个会在load文件时与HDFS中NameNode进程内存中的版本号分别进行校验,防止错误版本的FSImage文件被加载,而codec则用于如何加载各个section区域,为空默认不做任何解压/压缩处理;

(四)最后为文件summary部分所占长度区域,这部分在FSImage文件中所占起止位置为1154152-1154155,正好是文件的最后一部分内容。

或许通过图的方式你会看的更直观,但是请原谅我拙劣的画图技巧:

实际上,FSImage文件中各个区域包含的内容,采用的是Google的protobuf编码格式,而protobuf不单单是一种消息传输格式,你也可以把它理解为一种数据编码格式,所以各个区域数据格式,在HDFS内的fsimage.proto文件中也有所阐述,比如FileSummary:

  1. message FileSummary {
  2. // The version of the above EBNF grammars.
  3. required uint32 ondiskVersion = 1;
  4. // layoutVersion describes which features are available in the
  5. // FSImage.
  6. required uint32 layoutVersion = 2;
  7. optional string codec         = 3;
  8. // index for each section
  9. message Section {
  10. optional string name = 1;
  11. optional uint64 length = 2;
  12. optional uint64 offset = 3;
  13. }
  14. repeated Section sections = 4;
  15. }

它就包含我们上面所描述的ondiskVersion、layoutVersion、codec、sections五部分,最后的sections是可以重复的,即repeated,而每个section又是一个message,包含name、length、offset三部分,正和我们上面解析的结果一致。

又如StringTableSection:

  1. /**
  2. * This section maps string to id
  3. * NAME: STRING_TABLE
  4. */
  5. message StringTableSection {
  6. message Entry {
  7. optional uint32 id = 1;
  8. optional string str = 2;
  9. }
  10. optional uint32 numEntry = 1;
  11. // repeated Entry
  12. }

包含两部分,Entry数量:numEntry,和重复的Entry,每个Entry又是一个Message,包含id和str两部分。

以上就是FSImage文件的主体信息,至于文件中的详细内容,特别是每个不同section区域中都有哪些内容,尤其是复杂的INodeSection等,我们后续再讲!

HDFS源码分析之FSImage文件内容(一)总体格式的更多相关文章

  1. HDFS源码分析数据块校验之DataBlockScanner

    DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...

  2. HDFS源码分析EditLog之读取操作符

    在<HDFS源码分析EditLog之获取编辑日志输入流>一文中,我们详细了解了如何获取编辑日志输入流EditLogInputStream.在我们得到编辑日志输入流后,是不是就该从输入流中获 ...

  3. HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState

    关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...

  4. HDFS源码分析EditLog之获取编辑日志输入流

    在<HDFS源码分析之EditLogTailer>一文中,我们详细了解了编辑日志跟踪器EditLogTailer的实现,介绍了其内部编辑日志追踪线程EditLogTailerThread的 ...

  5. HDFS源码分析心跳汇报之数据块汇报

    在<HDFS源码分析心跳汇报之数据块增量汇报>一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNod ...

  6. Yii2.0源码分析之——控制器文件分析(Controller.php)创建动作、执行动作

    在Yii中,当请求一个Url的时候,首先在application中获取request信息,然后由request通过urlManager解析出route,再在Module中根据route来创建contr ...

  7. HDFS源码分析之UnderReplicatedBlocks(一)

    http://blog.csdn.net/lipeng_bigdata/article/details/51160359 UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据 ...

  8. HDFS源码分析数据块复制监控线程ReplicationMonitor(二)

    HDFS源码分析数据块复制监控线程ReplicationMonitor(二)

  9. HDFS源码分析数据块复制监控线程ReplicationMonitor(一)

    ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...

随机推荐

  1. [P2023][AHOI2009]维护序列(线段树)

    题目描述 老师交给小可可一个维护数列的任务,现在小可可希望你来帮他完成. 有长为N的数列,不妨设为a1,a2,…,aN .有如下三种操作形式: (1)把数列中的一段数全部乘一个值; (2)把数列中的一 ...

  2. Mycat查询时出现:Error Code: 1064. can't find any valid datanode

    说明:这个错误是查询时条件字段超过了范围导致的. 解释: 为什么会出现范围问题? 一般在MySQL查询时不会因为字段的值超过了范围而导致的,但是在Mycat中却不是这样认为的,Mycat是由于采用的分 ...

  3. kaptcha验证码

    @Action("/validimg") public String validimg() throws Exception { genernateCaptchaImage(); ...

  4. kubernetes--pod的生命周期管理

    下文基于kubernetes 1.5.2版本编写 lifecycle 概念 创建资源对象时,可以使用lifecycle来管理容器在运行前和关闭前的一些动作. lifecycle有两种回调函数: Pos ...

  5. 129 - Krypton Factor

    /*UVa129 - Krypton Factor --回溯问题.看例子可知道确定该字符串是按照从左到右依次考虑每个位置,当前位置填不上所有的字符时,需要回溯. -- */ #define _CRT_ ...

  6. 粗谈CDN

    CDN:内容分发网络(content delivery network) 1.DNS解析到最快(有可能是地理上最近,也有可能是地理上远但是链路最好)的CDN缓存设备 2.从CDN获取已经缓存的资源 3 ...

  7. 一个人的安全部之ELK接收Paloalto日志并用钉钉告警

    起因 通报漏洞后,开发未能及时修复漏洞,导致被攻击,领导说我发现被攻击的时间晚了,由于一个人安全部精力有限未能及时看IPS告警,于是做了个钉钉告警. 本人环境介绍 ubuntu 14.04 pytho ...

  8. jqGrid怎么设置初始化页面时不加载数据(不向服务器请求数据)

    最近做一些表格一直用到jqGrid,今天遇到一个问题: 1.就是页面加载的时候数据不显示,点击搜索才根据请求从服务器返回并显示内容. 2.默认不从服务器请求数据(不然在开发者工具下会显示请求不到数据的 ...

  9. log4j教程 3、架构

    Log4j API设计为分层结构,其中每一层提供了不同的对象,对象执行不同的任务.这使得设计灵活,根据将来需要来扩展. 有两种类型可用在Log4j的框架对象. 核心对象: 框架的强制对象和框架的使用. ...

  10. thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found

    thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_start (- ...