HDFS源码分析心跳汇报之数据块汇报
在《HDFS源码分析心跳汇报之数据块增量汇报》一文中,我们详细介绍了数据块增量汇报的内容,了解到它是时间间隔更长的正常数据块汇报周期内一个smaller的数据块汇报,它负责将DataNode上数据块的变化情况及时汇报给NameNode。那么,时间间隔更长的正常数据块汇报都做了些什么呢?本文,我们将开始研究下时间间隔更长的正常数据块汇报。
首先,看下正常数据块汇报是如何发起的?我们先看下BPServiceActor工作线程的offerService()方法:
- /**
- * Main loop for each BP thread. Run until shutdown,
- * forever calling remote NameNode functions.
- */
- private void offerService() throws Exception {
- //
- // Now loop for a long time....
- //
- while (shouldRun()) {// 又是一个利用shouldRun()判断的while循环
- try {
- // 省略部分代码
- ...
- // 调用blockReport()方法,进行数据块汇报,放返回来自名字节点NameNode的相关命令cmds
- List<DatanodeCommand> cmds = blockReport();
- // 调用processCommand()方法处理来自名字节点NameNode的相关命令cmds
- processCommand(cmds == null ? null : cmds.toArray(new DatanodeCommand[cmds.size()]));
- // 省略部分代码
- //
- // There is no work to do; sleep until hearbeat timer elapses,
- // or work arrives, and then iterate again.
- // 计算等待时间waitTime:心跳时间间隔减去上次心跳后截至到现在已过去的时间
- long waitTime = dnConf.heartBeatInterval -
- (Time.now() - lastHeartbeat);
- synchronized(pendingIncrementalBRperStorage) {
- if (waitTime > 0 && !sendImmediateIBR) {// 如果等待时间大于0,且不是立即发送数据块增量汇报
- try {
- // 利用pendingIncrementalBRperStorage进行等待,并加synchronized关键字进行同步
- pendingIncrementalBRperStorage.wait(waitTime);
- } catch (InterruptedException ie) {
- LOG.warn("BPOfferService for " + this + " interrupted");
- }
- }
- } // synchronized
- } catch(RemoteException re) {
- <pre name="code" class="java"> // 省略部分代码
} catch (IOException e) {
- // 省略部分代码
} } // while (shouldRun())
可以看出,在BPServiceActor工作线程offerService()方法的while循环内,数据块汇报blockReport()方法执行时,仅有下面的waitTime的等待时间,其他情况下都是立即执行的。那么等待时间waitTime是如何计算的呢?它就是心跳时间间隔减去上次心跳后截至到现在已过去的时间,并且,如果等待时间waitTime大于0,且不是立即发送数据块增量汇报(标志位sendImmediateIBR为false),那么才会利用pendingIncrementalBRperStorage进行等待,并加synchronized关键字进行同步。在这里,我们就可以大胆猜测,数据块汇报的时间间隔应该是大于心跳时间间隔的,并且两者之间的距离肯定不小。
那么,我们开始研究实现正常数据块汇报的blockReport()方法吧,代码如下:
- /**
- * Report the list blocks to the Namenode
- * @return DatanodeCommands returned by the NN. May be null.
- * @throws IOException
- */
- List<DatanodeCommand> blockReport() throws IOException {
- // send block report if timer has expired.
- // 到期就发送数据块汇报
- // 取当前开始时间startTime
- final long startTime = now();
- // 如果当前时间startTime减去上次数据块汇报时间小于数据节点配置的数据块汇报时间间隔的话,直接返回null,
- // 数据节点配置的数据块汇报时间间隔取参数dfs.blockreport.intervalMsec,参数未配置的话默认为6小时
- if (startTime - lastBlockReport <= dnConf.blockReportInterval) {
- return null;
- }
- // 构造数据节点命令ArrayList列表cmds,存储数据块汇报返回的命令DatanodeCommand
- ArrayList<DatanodeCommand> cmds = new ArrayList<DatanodeCommand>();
- // Flush any block information that precedes the block report. Otherwise
- // we have a chance that we will miss the delHint information
- // or we will report an RBW replica after the BlockReport already reports
- // a FINALIZED one.
- // 调用reportReceivedDeletedBlocks()方法发送数据块增量汇报
- reportReceivedDeletedBlocks();
- // 记录上次数据块增量汇报时间lastDeletedReport
- lastDeletedReport = startTime;
- // 设置数据块汇报起始时间brCreateStartTime为当前时间
- long brCreateStartTime = now();
- // 从数据节点DataNode根据线程对应块池ID获取数据块汇报集合perVolumeBlockLists,
- // key为数据节点存储DatanodeStorage,value为数据节点存储所包含的Long类数据块数组BlockListAsLongs
- Map<DatanodeStorage, BlockListAsLongs> perVolumeBlockLists =
- dn.getFSDataset().getBlockReports(bpos.getBlockPoolId());
- // Convert the reports to the format expected by the NN.
- int i = 0;
- int totalBlockCount = 0;
- // 创建数据块汇报数组StorageBlockReport,大小为上述perVolumeBlockLists的大小
- StorageBlockReport reports[] =
- new StorageBlockReport[perVolumeBlockLists.size()];
- // 遍历perVolumeBlockLists
- for(Map.Entry<DatanodeStorage, BlockListAsLongs> kvPair : perVolumeBlockLists.entrySet()) {
- // 取出value:BlockListAsLongs
- BlockListAsLongs blockList = kvPair.getValue();
- // 将BlockListAsLongs封装成StorageBlockReport加入数据块汇报数组reports,
- // StorageBlockReport包含数据节点存储DatanodeStorage和其上数据块数组
- reports[i++] = new StorageBlockReport(
- kvPair.getKey(), blockList.getBlockListAsLongs());
- // 累加数据块数目totalBlockCount
- totalBlockCount += blockList.getNumberOfBlocks();
- }
- // Send the reports to the NN.
- int numReportsSent;
- long brSendStartTime = now();
- // 根据数据块总数目判断是否需要多次发送消息
- if (totalBlockCount < dnConf.blockReportSplitThreshold) {// 如果数据块总数目在split阈值之下,则将所有的数据块汇报信息放在一个消息中发送
- // split阈值取参数dfs.blockreport.split.threshold,参数未配置的话默认为1000*1000
- // Below split threshold, send all reports in a single message.
- // 发送的数据块汇报消息数numReportsSent设置为1
- numReportsSent = 1;
- // 通过NameNode代理bpNamenode的blockReport()方法向NameNode发送数据块汇报信息
- DatanodeCommand cmd =
- bpNamenode.blockReport(bpRegistration, bpos.getBlockPoolId(), reports);
- // 将数据块汇报后返回的命令cmd加入到命令列表cmds
- if (cmd != null) {
- cmds.add(cmd);
- }
- } else {
- // Send one block report per message.
- // 发送的数据块汇报消息数numReportsSent设置为1
- numReportsSent = i;
- // 遍历reports,取出每个StorageBlockReport
- for (StorageBlockReport report : reports) {
- StorageBlockReport singleReport[] = { report };
- // 通过NameNode代理bpNamenode的blockReport()方法向NameNode发送数据块汇报信息
- DatanodeCommand cmd = bpNamenode.blockReport(
- bpRegistration, bpos.getBlockPoolId(), singleReport);
- // 将数据块汇报后返回的命令cmd加入到命令列表cmds
- if (cmd != null) {
- cmds.add(cmd);
- }
- }
- }
- // Log the block report processing stats from Datanode perspective
- // 计算数据块汇报耗时并记录在日志Log、数据节点Metrics指标体系中
- long brSendCost = now() - brSendStartTime;
- long brCreateCost = brSendStartTime - brCreateStartTime;
- dn.getMetrics().addBlockReport(brSendCost);
- LOG.info("Sent " + numReportsSent + " blockreports " + totalBlockCount +
- " blocks total. Took " + brCreateCost +
- " msec to generate and " + brSendCost +
- " msecs for RPC and NN processing. " +
- " Got back commands " +
- (cmds.size() == 0 ? "none" : Joiner.on("; ").join(cmds)));
- // 调用scheduleNextBlockReport()方法,调度下一次数据块汇报
- scheduleNextBlockReport(startTime);
- // 返回命令cmds
- return cmds.size() == 0 ? null : cmds;
- }
数据块汇报的blockReport()方法处理流程大体如下:
1、取当前开始时间startTime;
2、如果当前时间startTime减去上次数据块汇报时间小于数据节点配置的数据块汇报时间间隔的话,直接返回null:
数据节点配置的数据块汇报时间间隔取参数dfs.blockreport.intervalMsec,参数未配置的话默认为6小时;
3、构造数据节点命令ArrayList列表cmds,存储数据块汇报返回的命令DatanodeCommand;
4、调用reportReceivedDeletedBlocks()方法发送数据块增量汇报;
5、记录上次数据块增量汇报时间lastDeletedReport;
6、设置数据块汇报起始时间brCreateStartTime为当前时间;
7、从数据节点DataNode根据线程对应块池ID获取数据块汇报集合perVolumeBlockLists:
key为数据节点存储DatanodeStorage,value为数据节点存储所包含的Long类数据块数组BlockListAsLongs;
8、创建数据块汇报数组StorageBlockReport,大小为上述perVolumeBlockLists的大小;
9、取出value:BlockListAsLongs:
9.1、取出value:BlockListAsLongs;
9.2、将BlockListAsLongs封装成StorageBlockReport加入数据块汇报数组reports,StorageBlockReport包含数据节点存储DatanodeStorage和其上数据块数组;
9.3、累加数据块数目totalBlockCount;
10、根据数据块总数目判断是否需要多次发送消息:
10.1、如果数据块总数目在split阈值之下,则将所有的数据块汇报信息放在一个消息中发送(split阈值取参数dfs.blockreport.split.threshold,参数未配置的话默认为1000*1000):
10.1.1、发送的数据块汇报消息数numReportsSent设置为1;
10.1.2、通过NameNode代理bpNamenode的blockReport()方法向NameNode发送数据块汇报信息;
10.1.3、将数据块汇报后返回的命令cmd加入到命令列表cmds;
10.2、如果数据块总数目在split阈值之上,将数据块汇报按照DatanodeStorage分多个消息来发送:
10.2.1、发送的数据块汇报消息数numReportsSent设置为i,即DatanodeStorage数目;
10.2.2、遍历reports,取出每个StorageBlockReport:
10.2.2.1、通过NameNode代理bpNamenode的blockReport()方法向NameNode发送数据块汇报信息;
10.2.2.2、将数据块汇报后返回的命令cmd加入到命令列表cmds;
11、计算数据块汇报耗时并记录在日志Log、数据节点Metrics指标体系中;
12、调用scheduleNextBlockReport()方法,调度下一次数据块汇报;
13、返回命令cmds。
HDFS源码分析心跳汇报之数据块汇报的更多相关文章
- HDFS源码分析心跳汇报之数据块增量汇报
在<HDFS源码分析心跳汇报之BPServiceActor工作线程运行流程>一文中,我们详细了解了数据节点DataNode周期性发送心跳给名字节点NameNode的BPServiceAct ...
- HDFS源码分析心跳汇报之周期性心跳
HDFS源码分析心跳汇报之周期性心跳,近期推出!
- HDFS源码分析心跳汇报之DataNode注册
HDFS源码分析心跳汇报之DataNode注册,近期推出!
- HDFS源码分析心跳汇报之BPServiceActor工作线程运行流程
在<HDFS源码分析心跳汇报之数据结构初始化>一文中,我们了解到HDFS心跳相关的BlockPoolManager.BPOfferService.BPServiceActor三者之间的关系 ...
- HDFS源码分析心跳汇报之数据结构初始化
在<HDFS源码分析心跳汇报之整体结构>一文中,我们详细了解了HDFS中关于心跳的整体结构,知道了BlockPoolManager.BPOfferService和BPServiceActo ...
- HDFS源码分析心跳汇报之整体结构
我们知道,HDFS全称是Hadoop Distribute FileSystem,即Hadoop分布式文件系统.既然它是一个分布式文件系统,那么肯定存在很多物理节点,而这其中,就会有主从节点之分.在H ...
- HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()
无论是第一次,还是之后的每次数据块汇报,名字名字节点都会对汇报上来的数据块进行检测,看看其是否为损坏的数据块.那么,损坏数据块是如何被检测的呢?本文,我们将研究下损坏数据块检测的checkReplic ...
- HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
- HDFS源码分析数据块复制监控线程ReplicationMonitor(一)
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
随机推荐
- 洛谷 P1342 请柬
题目描述 在电视时代,没有多少人观看戏剧表演.Malidinesia古董喜剧演员意识到这一事实,他们想宣传剧院,尤其是古色古香的喜剧片.他们已经打印请帖和所有必要的信息和计划.许多学生被雇来分发这些请 ...
- 更改MVC3默认错误提示信息 模型验证 validation
原文发布时间为:2011-07-20 -- 来源于本人的百度文章 [由搬家工具导入] Model Metadata and Validation Localization using Conventi ...
- paramiko模块及ssh远程登陆
ssh实现远程登陆一般有两种方式,一种就是用户密码登陆,另一种是密钥登陆(当然默认是要服务端打开ssh服务). 我这里使用这两种方法操作一下远程登陆,测试客户端是本机的root与jeff用户,远程连接 ...
- 转:[小北De编程手记] : Selenium For C# 教程目录
写<Selnium For C#>系列文章的初衷是因为有很多朋友问我应该从哪里开始学习自动化测试,于是就为大家写下了这个系列的文章,希望对你有些帮助吧.而我想表达的是Selenium(同时 ...
- poj 2892(二分+树状数组)
Tunnel Warfare Time Limit: 1000MS Memory Limit: 131072K Total Submissions: 7749 Accepted: 3195 D ...
- 判断图连通的三种方法——dfs,bfs,并查集
Description 如果无向图G每对顶点v和w都有从v到w的路径,那么称无向图G是连通的.现在给定一张无向图,判断它是否是连通的. Input 第一行有2个整数n和m(0 < n,m < ...
- ATOM入坑必备插件
Atom作为Javascript/CSS/HTML等前端编辑器利器,其强大功能依靠各种插件,以下是笔者在入坑阶段,精挑细选总结出的必不可少的插件,熟悉运用这些插件,一定成吨提高生产效率.安装这些插件只 ...
- Ubuntu 16.04下使用Wine安装Notepad++
说明: 1.使用的Wine版本是深度出品(Deepin),已经精简了很多没用的配置,使启动能非常快,占用资源小. 2.关于没有.wine文件夹的解决方法:在命令行上运行winecfg: 下载: (链接 ...
- ios内存管理笔记(三)
我们在进行iOS开发时,经常会在类的声明部分看见类似于@synthesize window=_window; 的语句,那么,这个window是什么,_ window又是什么,两个东西分别怎么用,这是一 ...
- ajax跨域解决办法
在使用jquery的ajax作请求时,http://127.0.0.1:8080,类似这样的一个本地请求,会产生跨域问题, 解决办法一: jsonp: var url= "http://12 ...