HDFS源码分析之数据块Block、副本Replica

我们知道，HDFS中的文件是由数据块Block组成的，并且为了提高容错性，每个数据块Block都会在不同数据节点DataNode上有若干副本Replica。那么，什么是Block？什么又是Replica？

首先，我们看下Block的定义，如下：

/**************************************************
* A Block is a Hadoop FS primitive, identified by a
* long.
*
**************************************************/
@InterfaceAudience.Private
@InterfaceStability.Evolving
public class Block implements Writable, Comparable<Block> {
public static final String BLOCK_FILE_PREFIX = "blk_";
public static final String METADATA_EXTENSION = ".meta";
//....省略部分代码
private long blockId;
private long numBytes;
private long generationStamp;
//....省略部分代码
}

Block实际上是HDFS文件数据块在HDFS元数据或者文件树中的一种表现形式。它有三个重要字段，均是long类型的，数据块艾迪blockId、数据块字节数numBytes、数据块时间戳generationStamp。另外，BLOCK_FILE_PREFIX表明了数据块数据文件在物理硬盘上为文件名是以blk_为前缀的，而METADATA_EXTENSION则标识了数据块元数据文件在物理硬盘上是以.meta为文件名后缀的。

我们再看下副本Replica的定义，它实际上是一个借口，如下：

/**
* This represents block replicas which are stored in DataNode.
*/
@InterfaceAudience.Private
public interface Replica {
//....省略部分代码
}

Replica实际上代表了存储与数据节点上的数据块副本，是数据块Block在数据节点上的存储形式的抽象。Replica的实现则是ReplicaInfo，它继承自Block，并实现了Replica接口，如下：

/**
* This class is used by datanodes to maintain meta data of its replicas.
* It provides a general interface for meta information of a replica.
* 这个类被数据节点用于保持它副本的元数据信息。它为副本的元数据信息提供了通用的接口。
*/
@InterfaceAudience.Private
abstract public class ReplicaInfo extends Block implements Replica {
//....省略部分代码
}

到了这里，我们就可以通俗的理解为，Block是名字节点NanmeNode中对文件数据块的抽象描述，它不区分副本，是组成文件的数据块的统一抽象描述，而Replica则是数据节点DataNode对存储在其上的物理数据块副本的统一抽象描述，它继承自Block，很好的反应了Block与Replica的对应关系。

我们简单看下抽象类ReplicaInfo都有哪些成员变量，代码如下：

/** volume where the replica belongs */
// 数据块副本属于的卷FsVolumeSpi实例volume
private FsVolumeSpi volume;
/** directory where block & meta files belong */
/**
* Base directory containing numerically-identified sub directories and
* possibly blocks.
* 数据块副本存储的基础路径，其包含以数字标识的子目录，或者干脆是数据块
*/
private File baseDir;
/**
* Whether or not this replica's parent directory includes subdirs, in which
* case we can generate them based on the replica's block ID
* 标志位：数据块副本的父目录是否包含子目录，如果是的话，我们可以根据数据块副本的数据块ID获取它们。
*/
private boolean hasSubdirs;
// 内部基础路径
private static final Map<String, File> internedBaseDirs = new HashMap<String, File>();

由上面的代码，我们可以知道，它主要包括数据块副本属于的卷FsVolumeSpi实例volume，数据块副本存储的基础路径baseDir，其包含以数字标识的子目录，或者干脆是数据块，还有就是标志位：数据块副本的父目录是否包含子目录，如果是的话，我们可以根据数据块副本的数据块ID获取它们。

HDFS源码分析之数据块Block、副本Replica的更多相关文章

HDFS源码分析之数据块及副本状态BlockUCState、ReplicaState
关于数据块.副本的介绍,请参考文章<HDFS源码分析之数据块Block.副本Replica>. 一.数据块状态BlockUCState 数据块状态用枚举类BlockUCState来表示,代 ...
HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()
无论是第一次,还是之后的每次数据块汇报,名字名字节点都会对汇报上来的数据块进行检测,看看其是否为损坏的数据块.那么,损坏数据块是如何被检测的呢?本文,我们将研究下损坏数据块检测的checkReplic ...
HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（一）
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
HDFS源码分析心跳汇报之数据块汇报
在<HDFS源码分析心跳汇报之数据块增量汇报>一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNod ...
HDFS源码分析心跳汇报之数据块增量汇报
在<HDFS源码分析心跳汇报之BPServiceActor工作线程运行流程>一文中,我们详细了解了数据节点DataNode周期性发送心跳给名字节点NameNode的BPServiceAct ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（二）
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析之UnderReplicatedBlocks（一）
http://blog.csdn.net/lipeng_bigdata/article/details/51160359 UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据 ...
HDFS源码分析之UnderReplicatedBlocks（二）
UnderReplicatedBlocks还提供了一个数据块迭代器BlockIterator,用于遍历其中的数据块.它是UnderReplicatedBlocks的内部类,有三个成员变量,如下: // ...

随机推荐

codechef AUG17 T5 Chef And Fibonacci Array
Chef has an array A = (A1, A2, ..., AN), which has N integers in it initially. Chef found that for i ...
浅析CSS里的 BFC 和 IFC
前端日刊登录浅析CSS里的 BFC 和 IFC 2018-01-29 阅读 1794 收藏 3 原链:segmentfault.com 分享到: 前端必备图书<Web安全开发指南掌握白 ...
[LeetCode] Length of Last Word 字符串查找
Given a string s consists of upper/lower-case alphabets and empty space characters ' ', return the l ...
eclipse在linux下无故闪退解决
A fatal error has been detected by the Java Runtime Environment: SIGSEGV (0xb) at pc=0x00007f25d0b92 ...
《手把手教你学C语言》学习笔记（4）---代码规范
编程过程中需要遵守编译器的各种约定,例如以下代码: 1 #include <stdio.h> 2 3 int main(int argc, char **argv) 4 { 5 print ...
【转】重装Ubuntu时如何保留/home分区中的数据
Windows系统可以在重装时只格式化C盘,从而保留其他分区的数据. Ubuntu系统也可以,只要在安装系统时分出一个/home分区.你可以把Ubuntu的“/”分区看为Windows的C盘,重装Ub ...
mysql 更新数据
set @num= 1000;update table set a= @num:=@num+1; set @date=now();UPDATE Orders t SET t.CreateTime = ...
codevs——1220 数字三角形（棋盘DP）
时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解题目描述 Description 如图所示的数字三角形,从顶部出发,在每一结点可以选择向左走或 ...
一次程序bug的排查
这周准备下一个QA测试的版本,把版本发到测试环境就开始发现各种问题,修修补补搞了一周,总算告一段落了. 分析一下几个bug的问题,都集中在程序模块的整合中.一个模块的一个小的修改,造成另一个模块的 ...
ios大文件存储
I am using Erica Sadun's method of Asynchronous Downloads (link here for the project file: download) ...

HDFS源码分析之数据块Block、副本Replica

HDFS源码分析之数据块Block、副本Replica的更多相关文章

随机推荐

热门专题