HDFS源码分析之EditLogTailer

在FSNamesystem中，有这么一个成员变量，定义如下：

/**
* Used when this NN is in standby state to read from the shared edit log.
* 当NameNode处于standby状态时用于从共享的edit log读取数据
*/
private EditLogTailer editLogTailer = null;

editLogTailer是一个编辑日志edit log的追踪器，它的主要作用就是当NameNode处于standby状态时用于从共享的edit log读取数据。它的构造是在FSNamesystem的startStandbyServices()方法中，代码如下：

editLogTailer = new EditLogTailer(this, conf);
editLogTailer.start();

利用当前FSNamesystem实例this和配置信息conf实例化一个EditLogTailer对象，然后调用其start()方法启动它。

接下来我们看看EditLogTailer的实现，先来看下其成员变量，代码如下：

// 编辑日志跟踪线程EditLogTailerThread实例tailerThread
private final EditLogTailerThread tailerThread;
// HDFS配置信息Configuration实例conf
private final Configuration conf;
// 文件系统命名空间FSNamesystem实例namesystem
private final FSNamesystem namesystem;
// 文件系统编辑日志FSEditLog实例editLog
private FSEditLog editLog;
// Active NameNode地址InetSocketAddress
private InetSocketAddress activeAddr;
// 名字节点通信接口NamenodeProtocol
private NamenodeProtocol cachedActiveProxy = null;
/**
* The last transaction ID at which an edit log roll was initiated.
* 一次编辑日志滚动开始时的最新事务ID
*/
private long lastRollTriggerTxId = HdfsConstants.INVALID_TXID;
/**
* The highest transaction ID loaded by the Standby.
* StandBy NameNode加载的最高事务ID
*/
private long lastLoadedTxnId = HdfsConstants.INVALID_TXID;
/**
* The last time we successfully loaded a non-zero number of edits from the
* shared directory.
* 最后一次我们从共享目录成功加载一个非零编辑的时间
*/
private long lastLoadTimestamp;
/**
* How often the Standby should roll edit logs. Since the Standby only reads
* from finalized log segments, the Standby will only be as up-to-date as how
* often the logs are rolled.
* StandBy NameNode滚动编辑日志的时间间隔。
*/
private final long logRollPeriodMs;
/**
* How often the Standby should check if there are new finalized segment(s)
* available to be read from.
* StandBy NameNode检查是否存在可以读取的新的最终日志段的时间间隔
*/
private final long sleepTimeMs;

其中，比较重要的几个变量如下：

1、EditLogTailerThread tailerThread：它是编辑日志跟踪线程，

我们再来看下EditLogTailer的构造方法，如下：

public EditLogTailer(FSNamesystem namesystem, Configuration conf) {
// 实例化编辑日志追踪线程EditLogTailerThread
this.tailerThread = new EditLogTailerThread();
// 根据入参初始化配置信息conf和文件系统命名系统namesystem
this.conf = conf;
this.namesystem = namesystem;
// 从namesystem中获取editLog
this.editLog = namesystem.getEditLog();
// 最新加载edit log时间lastLoadTimestamp初始化为当前时间
lastLoadTimestamp = now();
// StandBy NameNode滚动编辑日志的时间间隔logRollPeriodMs
// 取参数dfs.ha.log-roll.period，参数未配置默认为2min
logRollPeriodMs = conf.getInt(DFSConfigKeys.DFS_HA_LOGROLL_PERIOD_KEY,
DFSConfigKeys.DFS_HA_LOGROLL_PERIOD_DEFAULT) * 1000;
// 如果logRollPeriodMs大于等于0
if (logRollPeriodMs >= 0) {
// 调用getActiveNodeAddress()方法初始化Active NameNode地址activeAddr
this.activeAddr = getActiveNodeAddress();
Preconditions.checkArgument(activeAddr.getPort() > 0,
"Active NameNode must have an IPC port configured. " +
"Got address '%s'", activeAddr);
LOG.info("Will roll logs on active node at " + activeAddr + " every " +
(logRollPeriodMs / 1000) + " seconds.");
} else {
LOG.info("Not going to trigger log rolls on active node because " +
DFSConfigKeys.DFS_HA_LOGROLL_PERIOD_KEY + " is negative.");
}
// StandBy NameNode检查是否存在可以读取的新的最终日志段的时间间隔sleepTimeMs
// 取参数dfs.ha.tail-edits.period，参数未配置默认为1min
sleepTimeMs = conf.getInt(DFSConfigKeys.DFS_HA_TAILEDITS_PERIOD_KEY,
DFSConfigKeys.DFS_HA_TAILEDITS_PERIOD_DEFAULT) * 1000;
LOG.debug("logRollPeriodMs=" + logRollPeriodMs +
" sleepTime=" + sleepTimeMs);
}

下面，我们再看下这个十分重要的编辑日志追踪线程EditLogTailerThread的实现，它的构造方法很简单，没有什么可说的，我们着重看下它的run()方法，代码如下：

@Override
public void run() {
SecurityUtil.doAsLoginUserOrFatal(
new PrivilegedAction<Object>() {
@Override
public Object run() {
doWork();
return null;
}
});
}

run()方法内继而调用了doWork()方法，代码如下：

private void doWork() {
// 标志位shouldRun为true时一直循环
while (shouldRun) {
try {
// There's no point in triggering a log roll if the Standby hasn't
// read any more transactions since the last time a roll was
// triggered.
// 自从上次日志滚动触发以来，如果StandBy NameNode没有读到任何事务的话，没有点触发一次日志滚动，
// 如果是自从上次加载后过了太长时间，并且上次编辑日志滚动开始时的最新事务ID小于上次StandBy NameNode加载的最高事务ID
if (tooLongSinceLastLoad() &&
lastRollTriggerTxId < lastLoadedTxnId) {
// 触发Active NameNode进行编辑日志滚动
triggerActiveLogRoll();
}
/**
* Check again in case someone calls {@link EditLogTailer#stop} while
* we're triggering an edit log roll, since ipc.Client catches and
* ignores {@link InterruptedException} in a few places. This fixes
* the bug described in HDFS-2823.
*/
// 判断标志位shouldRun，如果其为false的话，退出循环
if (!shouldRun) {
break;
}
// 调用doTailEdits()方法执行日志追踪
doTailEdits();
} catch (EditLogInputException elie) {
LOG.warn("Error while reading edits from disk. Will try again.", elie);
} catch (InterruptedException ie) {
// interrupter should have already set shouldRun to false
continue;
} catch (Throwable t) {
LOG.fatal("Unknown error encountered while tailing edits. " +
"Shutting down standby NN.", t);
terminate(1, t);
}
// 线程休眠sleepTimeMs时间后继续工作
try {
Thread.sleep(sleepTimeMs);
} catch (InterruptedException e) {
LOG.warn("Edit log tailer interrupted", e);
}
}
}

当标志位shouldRun为true时，doWork()方法一直在while循环内执行，其处理逻辑如下：

1、如果是自从上次加载后过了太长时间，并且上次编辑日志滚动开始时的最新事务ID小于上次StandBy NameNode加载的最高事务ID，触发Active NameNode进行编辑日志滚动：

自从上次加载后过了太长时间是根据tooLongSinceLastLoad()方法判断的，而触发Active NameNode进行编辑日志滚动则是通过triggerActiveLogRoll()方法来完成的；

2、判断标志位shouldRun，如果其为false的话，退出循环；

3、调用doTailEdits()方法执行日志追踪；

4、线程休眠sleepTimeMs时间后继续执行上述工作。

我们先来看下如果确定自从上次加载后过了太长时间，tooLongSinceLastLoad()方法代码如下：

/**
* @return true if the configured log roll period has elapsed.
*/
private boolean tooLongSinceLastLoad() {
// StandBy NameNode滚动编辑日志的时间间隔logRollPeriodMs大于0，
// 且最后一次我们从共享目录成功加载一个非零编辑的时间到现在的时间间隔大于logRollPeriodMs
return logRollPeriodMs >= 0 &&
(now() - lastLoadTimestamp) > logRollPeriodMs ;
}

它判断的主要依据就是，StandBy NameNode滚动编辑日志的时间间隔logRollPeriodMs大于0，且最后一次我们从共享目录成功加载一个非零编辑的时间到现在的时间间隔大于logRollPeriodMs。

触发Active NameNode进行编辑日志滚动的triggerActiveLogRoll()方法代码如下：

/**
* Trigger the active node to roll its logs.
* 触发Active NameNode滚动日志
*/
private void triggerActiveLogRoll() {
LOG.info("Triggering log roll on remote NameNode " + activeAddr);
try {
// 获得Active NameNode的代理，并调用其rollEditLog()方法滚动编辑日志
getActiveNodeProxy().rollEditLog();
// 将上次StandBy NameNode加载的最高事务ID，即lastLoadedTxnId，赋值给上次编辑日志滚动开始时的最新事务ID，即lastRollTriggerTxId，
// 这么做是为了方便进行日志回滚
lastRollTriggerTxId = lastLoadedTxnId;
} catch (IOException ioe) {
LOG.warn("Unable to trigger a roll of the active NN", ioe);
}
}

它首先会获得Active NameNode的代理，并调用其rollEditLog()方法滚动编辑日志，然后将上次StandBy NameNode加载的最高事务ID，即lastLoadedTxnId，赋值给上次编辑日志滚动开始时的最新事务ID，即lastRollTriggerTxId，这么做是为了方便进行日志回滚以及逻辑判断。

好了，最后我们看下最重要的执行日志追踪的doTailEdits()方法吧，代码如下：

@VisibleForTesting
void doTailEdits() throws IOException, InterruptedException {
// Write lock needs to be interruptible here because the
// transitionToActive RPC takes the write lock before calling
// tailer.stop() -- so if we're not interruptible, it will
// deadlock.
// namesystem加写锁
namesystem.writeLockInterruptibly();
try {
// 通过namesystem获取文件系统镜像FSImage实例image
FSImage image = namesystem.getFSImage();
// 通过文件系统镜像FSImage实例image获取最新的事务ID
long lastTxnId = image.getLastAppliedTxId();
if (LOG.isDebugEnabled()) {
LOG.debug("lastTxnId: " + lastTxnId);
}
Collection<EditLogInputStream> streams;
try {
// 从编辑日志editLog中获取编辑日志输入流集合streams，获取的输入流为最新事务ID加1之后的数据
streams = editLog.selectInputStreams(lastTxnId + 1, 0, null, false);
} catch (IOException ioe) {
// This is acceptable. If we try to tail edits in the middle of an edits
// log roll, i.e. the last one has been finalized but the new inprogress
// edits file hasn't been started yet.
LOG.warn("Edits tailer failed to find any streams. Will try again " +
"later.", ioe);
return;
}
if (LOG.isDebugEnabled()) {
LOG.debug("edit streams to load from: " + streams.size());
}
// Once we have streams to load, errors encountered are legitimate cause
// for concern, so we don't catch them here. Simple errors reading from
// disk are ignored.
long editsLoaded = 0;
try {
// 调用文件系统镜像FSImage实例image的loadEdits()，
// 利用编辑日志输入流集合streams，加载编辑日志至目标namesystem中的文件系统镜像FSImage，
// 并获得编辑日志加载的大小editsLoaded
editsLoaded = image.loadEdits(streams, namesystem);
} catch (EditLogInputException elie) {
editsLoaded = elie.getNumEditsLoaded();
throw elie;
} finally {
if (editsLoaded > 0 || LOG.isDebugEnabled()) {
LOG.info(String.format("Loaded %d edits starting from txid %d ",
editsLoaded, lastTxnId));
}
}
if (editsLoaded > 0) {// 如果editsLoaded大于0
// 最后一次我们从共享目录成功加载一个非零编辑的时间lastLoadTimestamp更新为当前时间
lastLoadTimestamp = now();
}
// 上次StandBy NameNode加载的最高事务ID更新为image中最新事务ID
lastLoadedTxnId = image.getLastAppliedTxId();
} finally {
// namesystem去除写锁
namesystem.writeUnlock();
}
}

大体处理流程如下：

1、首先，namesystem加写锁；

2、通过namesystem获取文件系统镜像FSImage实例image；

3、通过文件系统镜像FSImage实例image获取最新的事务ID，即lastTxnId；

4、从编辑日志editLog中获取编辑日志输入流集合streams，获取的输入流为最新事务ID加1之后的数据：

ps：注意，这个编辑日志输入流集合streams并非读取的是editLog对象中的数据，毕竟editLog也是根据namesystem来获取的，如果从其中读取数据再加载到namesystem中的fsimage中，没有多大意义，这个日志输入流实际上是通过Hadoop HA中的JournalNode来获取的，这个我们以后再分析。

5、调用文件系统镜像FSImage实例image的loadEdits()，利用编辑日志输入流集合streams，加载编辑日志至目标namesystem中的文件系统镜像FSImage，并获得编辑日志加载的大小editsLoaded；

6、如果editsLoaded大于0，最后一次我们从共享目录成功加载一个非零编辑的时间lastLoadTimestamp更新为当前时间；

7、上次StandBy NameNode加载的最高事务ID更新为image中最新事务ID；

8、namesystem去除写锁。

部分涉及FSImage、FSEditLog、JournalNode等的细节，限于篇幅，我们以后再分析！

HDFS源码分析之EditLogTailer的更多相关文章

HDFS源码分析EditLog之获取编辑日志输入流
在<HDFS源码分析之EditLogTailer>一文中,我们详细了解了编辑日志跟踪器EditLogTailer的实现,介绍了其内部编辑日志追踪线程EditLogTailerThread的 ...
HDFS源码分析EditLog之读取操作符
在<HDFS源码分析EditLog之获取编辑日志输入流>一文中,我们详细了解了如何获取编辑日志输入流EditLogInputStream.在我们得到编辑日志输入流后,是不是就该从输入流中获 ...
HDFS源码分析之UnderReplicatedBlocks（一）
http://blog.csdn.net/lipeng_bigdata/article/details/51160359 UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据 ...
HDFS源码分析数据块校验之DataBlockScanner
DataBlockScanner是运行在数据节点DataNode上的一个后台线程.它为所有的块池管理块扫描.针对每个块池,一个BlockPoolSliceScanner对象将会被创建,其运行在一个单独 ...
HDFS源码分析数据块复制监控线程ReplicationMonitor（二）
HDFS源码分析数据块复制监控线程ReplicationMonitor(二)
HDFS源码分析数据块复制监控线程ReplicationMonitor（一）
ReplicationMonitor是HDFS中关于数据块复制的监控线程,它的主要作用就是计算DataNode工作,并将复制请求超时的块重新加入到待调度队列.其定义及作为线程核心的run()方法如下: ...
HDFS源码分析之UnderReplicatedBlocks（二）
UnderReplicatedBlocks还提供了一个数据块迭代器BlockIterator,用于遍历其中的数据块.它是UnderReplicatedBlocks的内部类,有三个成员变量,如下: // ...
HDFS源码分析之LightWeightGSet
LightWeightGSet是名字节点NameNode在内存中存储全部数据块信息的类BlocksMap需要的一个重要数据结构,它是一个占用较低内存的集合的实现,它使用一个数组array存储元素,使用 ...
HDFS源码分析数据块汇报之损坏数据块检测checkReplicaCorrupt()
无论是第一次,还是之后的每次数据块汇报,名字名字节点都会对汇报上来的数据块进行检测,看看其是否为损坏的数据块.那么,损坏数据块是如何被检测的呢?本文,我们将研究下损坏数据块检测的checkReplic ...

随机推荐

洛谷P2114起床困难综合征
从高位到低位按位枚举,贪心.如果该位填1比填0结果优且填1不会超出m限制,那就填1,否则填0 /*by SilverN*/ #include<iostream> #include<c ...
C语言集锦（三）Direct3D和GDI+的例子
0.前言有些时候你可能想了解,如何用纯C语言来写Direct3D和GDI+的Demo.注意,下面的Direct3D例子不适用于TCC编译器,GDI+的例子是可以的. 1.Direct3D C语言的例 ...
pip源配置
1.使用配置文件配置文件[global]trusted-host=mirrors.aliyun.comindex-url=http://mirrors.aliyun.com/pypi/simple/ ...
AC日记——[Ahoi2009]Seq 维护序列seq bzoj 1798
1798 思路: 维护两个标记: 乘:m 和加:a 先下放乘,再下放加: 下放乘的时候要把子节点的加一块乘了: 开long long: 来,上代码: #include <cstdio> ...
AC日记——仙岛求药 openjude 2727
仙岛求药思路: bfs: 来,上代码: #include <cstdio> #include <cstring> #include <iostream> #inc ...
Android开发大坑Fragment
是不是弄了半天你的Fragment老是Replace不了,我的原因是:弄成静态的,然后要动态Replace,竟然不行,后来框个FragmentLayout,改成全动态添加和Replace,OK了.
codevs_1043 方格取数（棋盘DP）
1043 方格取数 2000年NOIP全国联赛提高组时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石 Diamond 题解题目描述 Description ...
块级元素和行内元素的区别 (block vs. inline)
块级元素 (display: block) 独占一行,多个block元素会各自新起一行.默认情况下,block元素的宽度会填满父元素的宽度. 可以设置width, height属性.但是,即使设置了w ...
瞬发大量并发连接造成MySQL连接不响应的分析
http://www.actionsky.com/docs/archives/252 2016年12月7日黄炎目录 1 现象 2 猜想 3 检查环境 4 猜想2 5 分析 5.1 TCP握手的 ...
80端口被屏蔽解决方法，80端口穿透之NAT端口映射技术
介绍一种NAT端口映射技术应用,达到80端口穿透目的,解决80端口被屏蔽的问题,也是80端口被屏蔽解决方法中经常用到的. 80端口穿透类似80端口转发,因为80端口被屏蔽,在数据层面来说是不能直接访问 ...

HDFS源码分析之EditLogTailer

HDFS源码分析之EditLogTailer的更多相关文章

随机推荐

热门专题