HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()
无论是第一次,还是之后的每次数据块汇报,名字名字节点都会对汇报上来的数据块进行检测,看看其是否为损坏的数据块。那么,损坏数据块是如何被检测的呢?本文,我们将研究下损坏数据块检测的checkReplicaCorrupt()方法。
关于数据块及其副本的状态,请阅读《HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState》一文。
checkReplicaCorrupt()方法专门用于损坏数据块检测,代码如下:
- /**
- * The next two methods test the various cases under which we must conclude
- * the replica is corrupt, or under construction. These are laid out
- * as switch statements, on the theory that it is easier to understand
- * the combinatorics of reportedState and ucState that way. It should be
- * at least as efficient as boolean expressions.
- *
- * @return a BlockToMarkCorrupt object, or null if the replica is not corrupt
- */
- private BlockToMarkCorrupt checkReplicaCorrupt(
- Block reported, ReplicaState reportedState,
- BlockInfo storedBlock, BlockUCState ucState,
- DatanodeDescriptor dn) {
- // 检测数据节点DataNode上的数据块副本状态ReplicaState实例reportedState
- switch(reportedState) {
- case FINALIZED:// 数据块副本如果为FINALIZED状态,即没有被修改的状态
- // 需要再看名字节点数据块状态BlockUCState,即ucState
- switch(ucState) {
- case COMPLETE:// 如果是COMPLETE状态,不应被汇报为坏块:这种情况下,数据节点副本已经处于不会被修改的FINALIZED状态,
- // 而名字节点中的数据块状态为COMPLETE,也是不会被修改的状态,
- // 并且其他数据节点已经汇报过该数据块对应的一个副本,所以不会是损坏的数据块
- case COMMITTED:// 如果是COMMITTED状态,虽然数据块不会被修改,但是还没有任何数据节点汇报过副本,还需要做以下时间戳和大小的判断:
- if (storedBlock.getGenerationStamp() != reported.getGenerationStamp()) {
- // 如果存储的数据块时间戳不等于汇报的数据块时间戳,需要汇报为坏块,
- // 且损坏原因为Reason.GENSTAMP_MISMATCH,即时间戳不匹配
- final long reportedGS = reported.getGenerationStamp();
- return new BlockToMarkCorrupt(storedBlock, reportedGS,
- "block is " + ucState + " and reported genstamp " + reportedGS
- + " does not match genstamp in block map "
- + storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
- } else if (storedBlock.getNumBytes() != reported.getNumBytes()) {
- // 如果存储的数据块大小不等于汇报的数据块大小,需要汇报为坏块
- // 且损坏原因为Reason.SIZE_MISMATCH,即大小不匹配
- return new BlockToMarkCorrupt(storedBlock,
- "block is " + ucState + " and reported length " +
- reported.getNumBytes() + " does not match " +
- "length in block map " + storedBlock.getNumBytes(),
- Reason.SIZE_MISMATCH);
- } else {
- // 其它情况下不是一个坏块
- return null; // not corrupt
- }
- case UNDER_CONSTRUCTION:// 如果是UNDER_CONSTRUCTION状态,数据还在被写入,所以需要做以下时间戳的判断:
- if (storedBlock.getGenerationStamp() > reported.getGenerationStamp()) {
- // 如果存储的数据块时间戳不等于汇报的数据块时间戳,需要汇报为坏块,
- // 且损坏原因为Reason.GENSTAMP_MISMATCH,即时间戳不匹配
- final long reportedGS = reported.getGenerationStamp();
- return new BlockToMarkCorrupt(storedBlock, reportedGS, "block is "
- + ucState + " and reported state " + reportedState
- + ", But reported genstamp " + reportedGS
- + " does not match genstamp in block map "
- + storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
- }
- return null;
- default:
- // 其他情况下均不是损坏的数据块
- return null;
- }
- case RBW:// 数据块副本为正在被写入状态,不应被汇报为坏块
- case RWR:// 数据块副本为正等待被恢复状态
- if (!storedBlock.isComplete()) {
- // 如果存储的数据块不是Complete状态,则不是一个坏块
- return null; // not corrupt
- } else if (storedBlock.getGenerationStamp() != reported.getGenerationStamp()) {
- // 否则需要判断时间戳是否一致
- final long reportedGS = reported.getGenerationStamp();
- return new BlockToMarkCorrupt(storedBlock, reportedGS,
- "reported " + reportedState + " replica with genstamp " + reportedGS
- + " does not match COMPLETE block's genstamp in block map "
- + storedBlock.getGenerationStamp(), Reason.GENSTAMP_MISMATCH);
- } else { // COMPLETE block, same genstamp
- if (reportedState == ReplicaState.RBW) {
- // 如果数据块副本为正在写入状态RBW,不会是一个损坏的数据块
- // If it's a RBW report for a COMPLETE block, it may just be that
- // the block report got a little bit delayed after the pipeline
- // closed. So, ignore this report, assuming we will get a
- // FINALIZED replica later. See HDFS-2791
- LOG.info("Received an RBW replica for " + storedBlock +
- " on " + dn + ": ignoring it, since it is " +
- "complete with the same genstamp");
- return null;
- } else {
- // 否则为一个损坏的数据块,且损坏原因为Reason.INVALID_STATE
- return new BlockToMarkCorrupt(storedBlock,
- "reported replica has invalid state " + reportedState,
- Reason.INVALID_STATE);
- }
- }
- case RUR: // should not be reported 副本处于恢复状态下,不应被汇报为坏块
- case TEMPORARY: // should not be reported 副本为仅为复制而创建的临时副本,不应被汇报为坏块
- default:
- String msg = "Unexpected replica state " + reportedState
- + " for block: " + storedBlock +
- " on " + dn + " size " + storedBlock.getNumBytes();
- // log here at WARN level since this is really a broken HDFS invariant
- LOG.warn(msg);
- return new BlockToMarkCorrupt(storedBlock, msg, Reason.INVALID_STATE);
- }
- }
checkReplicaCorrupt()方法处理逻辑略显复杂,但是还算清晰,它需要被汇报的数据块Block实例reported、副本状态实例ReplicaState、数据块状态BlockUCState等参数,主要处理逻辑如下:
基于数据节点DataNode上的数据块副本状态ReplicaState实例reportedState进行检测,如果:
1、数据块副本状态ReplicaState为正在写入RBW、正在恢复RUR、为复制而创建的临时副本TEMPORARY三种状态,则肯定不是损坏的数据块,因为这些数据块副本还处于不确定的状态,还需要被写入或者被舍弃等;
2、数据块副本状态ReplicaState为FINALIZED的话,说明数据已被完全写入,数据块副本大小及时间戳均不会再发生变化,此时,就等着其所在数据节点DataNode进行数据块汇报,将该数据块副本汇报给名字节点NameNode,那么我们需要看数据块Block在名字节点内的状态:
2.1、如果是COMPLETE状态,不应被汇报为坏块:这种情况下,数据节点副本已经处于不会被修改的FINALIZED状态,而名字节点中的数据块状态为COMPLETE,也是不会被修改的状态,并且其他数据节点已经汇报过该数据块对应的一个副本,所以不会是损坏的数据块;
2.2、如果是COMMITTED状态,虽然数据块不会被修改,但是还没有任何数据节点汇报过副本,还需要做以下时间戳和大小的判断:
2.2.1、如果名字节点存储的数据块时间戳不等于汇报的数据块时间戳,需要汇报为坏块,且损坏原因为Reason.GENSTAMP_MISMATCH,即时间戳不匹配;
2.2.2、如果名字节点存储的数据块大小不等于汇报的数据块大小,需要汇报为坏块,且损坏原因为Reason.SIZE_MISMATCH,即大小不匹配;
2.2.3、其它情况下不是一个坏块;
2.3、如果是UNDER_CONSTRUCTION状态,数据还在被写入,所以可以忽略大小,只做以下时间戳的判断:
2.3.1、如果名字节点存储的数据块时间戳不等于汇报的数据块时间戳,需要汇报为坏块,且损坏原因为Reason.GENSTAMP_MISMATCH,即时间戳不匹配;
2.3.2、其它情况下不是一个坏块;
2.4、其他情况下均不是损坏的数据块;
3、数据块副本为正等待被恢复状态RWR的话,需要看数据块在名字节点NameNode的状态:
3.1、如果名字节点存储的数据块Block不是COMPLETE状态,则不是一个坏块,此时数据块尚未上报过名字节点NameNode;
3.2、如果名字节点存储的数据块是COMPLETE状态,说明之前已经上报过,需要判断时间戳是否一致,如果时间戳不一致的话,则说明其是一个坏块;
3.3、如果名字节点存储的数据块是COMPLETE状态,说明之前已经上报过,且时间戳一致的话,如果数据块副本为正在写入状态RBW,不会是一个损坏的数据块,否则为一个损坏的数据块,且损坏原因为Reason.INVALID_STATE;
4、其他情况下均为一个坏块,且损坏原因为Reason.INVALID_STATE。
BlockToMarkCorrupt是一个数据块标记为坏块的抽象数据结构,它包含四个成员变量,如下:
- /** The corrupted block in a datanode. */
- 数据节点上的坏块数据块信息
- final BlockInfo corrupted;
- /** The corresponding block stored in the BlockManager. */
- // 名字节点BlockManager中存储的相应的数据块信息
- final BlockInfo stored;
- // 损坏原因:字符串类型
- /** The reason to mark corrupt. */
- final String reason;
- // 损坏原因code:枚举类型
- /** The reason code to be stored */
- final Reason reasonCode;
其他的均是构造方法,及覆写的toString()方法,不再赘述!
HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()的更多相关文章
- HDFS源码分析心跳汇报之数据块汇报
在<HDFS源码分析心跳汇报之数据块增量汇报>一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNod ...
- HDFS源码分析心跳汇报之数据块增量汇报
在<HDFS源码分析心跳汇报之BPServiceActor工作线程运行流程>一文中,我们详细了解了数据节点DataNode周期性发送心跳给名字节点NameNode的BPServiceAct ...
- HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
- HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState
关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...
- HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
- HDFS源码分析数据块复制监控线程ReplicationMonitor(一)
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
- HDFS源码分析心跳汇报之数据结构初始化
在<HDFS源码分析心跳汇报之整体结构>一文中,我们详细了解了HDFS中关于心跳的整体结构,知道了BlockPoolManager.BPOfferService和BPServiceActo ...
- HDFS源码分析心跳汇报之周期性心跳
HDFS源码分析心跳汇报之周期性心跳,近期推出!
- HDFS源码分析心跳汇报之DataNode注册
HDFS源码分析心跳汇报之DataNode注册,近期推出!
随机推荐
- FusionCharts参数大全
原文发布时间为:2010-01-11 -- 来源于本人的百度文章 [由搬家工具导入] Fusioncharts 参数 objects ANCHORS 锚点 用于标识line或area的数值点 支持效果 ...
- 阿里巴巴Java开发手册公开版(转)
1.不要嫌名字长 无论是方法,变量,还是函数的取名,不要嫌弃名称太长,只要能够表示清楚含义就可以了. 2.String[] args而不是String args[] 中括号是数组类型的一部分,数组定义 ...
- Spy++使用方法
原文转自 http://jingyan.baidu.com/article/3a2f7c2e76584a26aed61174.html 1.Spy++ 是Visual Studio 自带的工具(菜单& ...
- C语言字符串操作总结大全(超详细)【转】
转自:http://www.jb51.net/article/37410.htm )字符串操作 strcpy(p, p1) 复制字符串 strncpy(p, p1, n) 复制指定长度字符串 strc ...
- C#原生加密方法: System.Security.Cryptography.CryptoStream DataSet加密解密
采用16位密钥形式加密,把数据 dataset或文本转换为二进制流,然后进行加密解密.代码如下: using System; using System.Collections.Generic; usi ...
- 索尼(SONY) SVE1512S7C 把WIN8降成WIN7图文教程
这两天接常接到客户要求把SONY笔记本的WIN8系统降成WIN7系统的单子,也接到很多毕业学员遇到最新的SONY笔记本不知道怎么进BIOS,进到BIOS不知道怎么设置从U盘启动,从U盘启动了安装了WI ...
- 注意这几点,轻轻松松配置 Nginx + Tomcat 的集群和负载均衡
Tomcat 集群是当单台服务器达到性能瓶颈,通过横向扩展的方式提高整体系统性能的有效手段.Nginx 是一个高性能的 HTTP 和反向代理 web 服务器,可以通过简单的配置实现 Tomcat 集群 ...
- MySQL 如何优化cpu消耗
目录 谁在消耗cpu? 祸首是谁? 用户 IO等待 产生影响 如何减少CPU消耗? 减少等待 减少计算 升级cpu 谁在消耗cpu? 用户+系统+IO等待+软硬中断+空闲 祸首是谁? 用户 用户空间C ...
- ActiveMQ 权限(二)
在 ActiveMQ 权限(一) 配置了对消息队列的权限,以下设置完成消息的权限,比如只接受某ip的消息. 两步完成, 第一步:继承接口org.apache.activemq.security.Mes ...
- 报“ Got minus one from a read call”的错误
在部署应用的时候,有时候应用可以直接启动,但偶尔应用却无法启动,报错信息是: java.sql.SQLRecoverableException: IO Error: Got minus one fro ...