NameNode的ZKFC机制

NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制

在此之前，我先提几个问题：

一般导致NameNode切换的原因
ZKFC的作用是什么？如何判断一个NN是否健康
NameNode HA是如何实现的？
NameNode因为断电导致不能切换的原理，怎样进行恢复

一般导致NameNode切换的原因

随着集群规模的变大和任务量变多，NameNode的压力会越来越大，一些默认参数已经不能满足集群的日常需求，除此之外，异常的Job在短时间内创建和删除大量文件，引起NN节点频繁更新内存的数据结构从而导致RPC的处理时间变长，CallQueue里面的RpcCall堆积，甚至严重的情况下打满CallQueue，导致NameNode响应变慢，甚至无响应，ZKFC的HealthMonitor监控自己的NN异常时，则会断开与ZooKeeper的链接，从而释放锁，另外一个NN上的ZKFC进行抢锁进行Standby到Active状态的切换。这是一般引起的切换的流程。

当然，如果你是手动去切换这也是可以的，当Active主机出现异常时，有时候则需要在必要的时间内进行切换。

ZKFC的作用是什么？如何判断一个NN是否健康

在正常的情况下，ZKFC的HealthMonitor主要是监控NameNode主机上的磁盘还是否可用（空间），我们都知道，NameNode负责维护集群上的元数据信息，当磁盘不可用的时候，NN就该进行切换了。

 /**

   * Return true if disk space is available on at least one of the configured

   * redundant volumes, and all of the configured required volumes.

   *

   * @return True if the configured amount of disk space is available on at

   *         least one redundant volume and all of the required volumes, false

   *         otherwise.

   */

  public boolean hasAvailableDiskSpace() {

    return NameNodeResourcePolicy.areResourcesAvailable(volumes.values(),

        minimumRedundantVolumes);

  }

注： minimumRedundantVolumes获取值的方法如下：

minimumRedundantVolumes = conf.getInt(

        DFSConfigKeys.DFS_NAMENODE_CHECKED_VOLUMES_MINIMUM_KEY,

        DFSConfigKeys.DFS_NAMENODE_CHECKED_VOLUMES_MINIMUM_DEFAULT);

其中，

DFS_NAMENODE_CHECKED_VOLUMES_MINIMUM_KEY = "dfs.namenode.resource.checked.volumes.minimum";

DFS_NAMENODE_CHECKED_VOLUMES_MINIMUM_DEFAULT = 1;

volumes 获取自配置项dfs.namenode.shared.edits.dir的值

除了可用状态（SERVICE_HEALTHY）之外，还有SERVICE_UNHEALTHY(磁盘空间不可用)，SERVICE_NOT_RESPONDING（其他的一些情况）状态，在这两个状态中，它都认为NN是不健康的。

NameNode HA是如何实现的？

我们前面说到，ZKFC是如何判断NN是否健康，接下来当NN处于非健康状态时，NameNode是如何进行切换的呢？

在ZKFailoverController这个类中，实行了两个重要的Callbacks函数，一个叫ElectorCallbacks，另一个叫HealthCallbacks，顾名思义就是选举和健康检查用的回调函数，其中还有两个重要的组成部分elector（ActiveStandbyElector），healthMonitor（HealthMonitor），总体的就如上图所示。

ElectorCallbacks:

/**

   * Callbacks from elector

   */

  class ElectorCallbacks implements ActiveStandbyElectorCallback {

    @Override

    public void becomeActive() throws ServiceFailedException {

      ZKFailoverController.this.becomeActive();

    }

    @Override

    public void becomeStandby() {

      ZKFailoverController.this.becomeStandby();

    }

...

}

HealthCallbacks:

 /**

   * Callbacks from HealthMonitor

   */

  class HealthCallbacks implements HealthMonitor.Callback {

    @Override

    public void enteredState(HealthMonitor.State newState) {

      setLastHealthState(newState);

      recheckElectability();

    }

  }

对于HealthMonitor来说，在ZKFC进程启动的时候，就已经将HealthCallbacks注册进去了，HealthMonitor都会定期的检查NameNode是否健康，我们可以通过监控ha.health-monitor.check-interval.ms去设置监控的间隔时间和通过参数ha.health-monitor.rpc-timeout.ms设置timeout时间，当集群变大的时候，需要适当的设置改值，让ZKFC的HealthMonitor没那么“敏感”。

ZKFC通过RPC调用监控NN进程，当出现异常时，则进入不同的处理逻辑，以下是简化的代码：

 private void doHealthChecks() throws InterruptedException {

    while (shouldRun) {

      try {

        status = proxy.getServiceStatus();

        proxy.monitorHealth();

        healthy = true;

      } catch (HealthCheckFailedException e) {

       ...

        enterState(State.SERVICE_UNHEALTHY);

      } catch (Throwable t) {

       ...

        enterState(State.SERVICE_NOT_RESPONDING);

        Thread.sleep(sleepAfterDisconnectMillis);

        return;

      }

      ...

}

回调函数就是这么起作用啦，那么回调函数做了什么呢？总的来说，如果NN健康（SERVICE_HEALTHY）就加入选举，如果不健康就退出选举（SERVICE_UNHEALTHY，SERVICE_NOT_RESPONDING）

 case SERVICE_UNHEALTHY:

        case SERVICE_NOT_RESPONDING:

          LOG.info("Quitting master election for " + localTarget +

              " and marking that fencing is necessary");

          elector.quitElection(true);

          break;

说到退出选举就关系到elector（ActiveStandbyElector）了，true代表如果NN从Actice变为Standby出现异常是要去fence的，这就是为啥NN会挂掉的原因之一

如何退出选举？就是close zkClient的链接，让ZooKeeper上面的维持的选举锁消失

void terminateConnection() {

    if (zkClient == null) {

      return;

    }

    LOG.debug("Terminating ZK connection for " + this);

    ZooKeeper tempZk = zkClient;

    ...

    try {

      tempZk.close();

    } catch(InterruptedException e) {

      LOG.warn(e);

    }

   ...

  }

对于ActiveStandbyElector来说，他有个WatcherWithClientRef类专门用来监听ZooKeeper上的的znode的事件变化，当事件变化时，就会调用ActiveStandbyElector的processWatchEvent的方法

watcher = new WatcherWithClientRef();

ZooKeeper zk = new ZooKeeper(zkHostPort, zkSessionTimeout, watcher);

和

/**

   * Watcher implementation which keeps a reference around to the

   * original ZK connection, and passes it back along with any

   * events.

   */

  private final class WatcherWithClientRef implements Watcher {

...

    @Override

        public void process(WatchedEvent event) {

          hasReceivedEvent.countDown();

          try {

            hasSetZooKeeper.await(zkSessionTimeout, TimeUnit.MILLISECONDS);

            ActiveStandbyElector.this.processWatchEvent(

                zk, event);

          } catch (Throwable t) {

            fatalError(

                "Failed to process watcher event " + event + ": " +

                StringUtils.stringifyException(t));

          }

        }

...

}

在ActiveStandbyElector的processWatchEvent方法中，处理来自不同事件的逻辑，重新加入选举或者继续监控znode的变化，当另外一个ZKFC监控到事件变化得时候，就去抢锁，抢锁实质上就是创建znode的过程，而且创建的是CreateMode.EPHEMERAL类型的，所以，当HealthMonitor监控到NN不健康时，就会断开连接，节点就会消失，watcher就会监控到NodeDeleted事件，进行创建节点。

 switch (eventType) {

      case NodeDeleted:

        if (state == State.ACTIVE) {

          enterNeutralMode();

        }

        joinElectionInternal();

        break;

      case NodeDataChanged:

        monitorActiveStatus();

        break;

又因为ActiveStandbyElector实现了StatCallback接口，当节点创建成功时，就会回调processResult方法看是否创建成功，如果创建成功则去检查zkBreadCrumbPath是否存在之前的Active节点，如果存在，则调用RPC让其变为Standby，看能否转变成功，否则则SSH过去fence掉NN进程。，保持Active节点只有一个，并且恢复正常服务

NameNode因为断电导致不能切换的原理，怎样进行恢复

ActiveNN断电，网络异常，负载过高或者机器出现异常无法连接，Standby NN无法转化为Active，使得HA集群无法对外服务,原因是Active NN节点在断电和不能服务的情况下，zknode上保存着ActiveBreadCrumb， ActiveStandbyElectorLock两个Active NN的信息，ActiveStandbyElectorLock由于Active NN出现异常断开，Standby NN去抢锁的时候就会去检查ActiveBreadCrumb是否有上一次的Active NN节点，如果有，就会就会尝试让Active NN变为Standby NN，自己转化为Active NN，但是由于调用出现异常，所以会采用ssh的方式去Fence之前的Active NN，因为机器始终连接不上，所以无法确保old active NN变为Standby NN，自己也无法变为Active NN，所以还是保持Standby状态，避免出现脑裂问题。

解决方案是确定Active关机的情况下重新hdfs zkfc -formatZK就可以了。

总结

NN GC或者在压力大的情况下可以调整GC算法和增加NameNode节点的线程数，加快NN对请求的处理速度，也可以分离节点的端口dfs.namenode.rpc-address.ns1.nn2和dfs.namenode.servicerpc-address.ns1.nn2分离client和datanode节点等服务类型的请求，进行分担压力，也可以适当的调整ZKFC的监控timeout的时间等等

NameNode的ZKFC机制的更多相关文章

[Hadoop]Hadoop章3 NameNode的ZKFC机制
基本概念首先我们要明确ZKFC 是什么,有什么作用: zkfc是什么? ZooKeeperFailoverController 它是什么?是Hadoop中通过ZK实现FC功能的一个实用工具. 主要作 ...
Hadoop NameNode的ZKFC机制
博客原文:hackershell 之前在准备中级课程PPT,整理了下HA的基本内容,并且感谢松哥为我们提供了HA不会切的问题,以至于之后刚好出现的NameNode宕机,能够快速解决. NameNode ...
namenode和datanode机制
转自:https://www.cnblogs.com/DarrenChan/p/6416043.html?utm_source=itdadao&utm_medium=referral 首先我们 ...
Hadoop- NameNode和Secondary NameNode元数据管理机制
元数据的存储机制 A.内存中有一份完整的元数据(内存meta data) B.磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中) C.用于衔接内存metadata ...
Hadoop的namenode的管理机制，工作机制和datanode的工作原理
HDFS前言: 1) 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: 2)在大数据系统中作用: 为各类分布式运算框架(如:mapr ...
hdfs文件上传机制与namenode元数据管理机制
1.hdfs文件上传机制文件上传过程: 1.客户端想NameNode申请上传文件, 2.NameNode返回此次上传的分配DataNode情况给客户端 3.客户端开始依向dataName上传对应 ...
hdfs namenode/datanode工作机制
一. namenode工作机制 1. 客户端上传文件时,namenode先检查有没有同名的文件,如果有,则直接返回错误信息.如果没有,则根据要上传文件的大小以及block的大小,算出需要分成几个blo ...
HDFS中NameNode管理元数据机制
NameNode职责响应客户端请求维护目录树管理元数据(查询,修改) HDFS元数据存储内存中有一份完整的元数据(特定数据结构) 磁盘有一个“准完整”的元数据的镜像文件当客户端对HDFS中的 ...
Hadoop（五）—— HDFS NameNode、DataNode工作机制
一.NN与2NN工作机制 NameNode(NN) 1.当HDFS启动时,会加载日志(edits)和镜像文件(fsImage)到内存中. 2-4.当元数据的增删改查请求进来时,NameNode会先将操 ...

随机推荐

OLE文件拖放
使用IDropTarget接口同时支持文本和文件拖放关于Windows的外壳扩展编程,拖放是比较简单的一种,在网上可以找到不少介绍这个技巧的文章.大部分是介绍使用MFC的COleDropTarget ...
Property's synthesized getter follows Cocoa naming convention for returning
Property's synthesized getter follows Cocoa naming convention for returning. 今天早上在整理代码的时候发现了如上警告. ...
下载企业级证书打包的app 出现“正在下载”或“等待中”的图标并且无法删除的问题
下载企业级证书打包的app 出现“正在下载”或“等待中”的图标并且无法删除的问题: 原因分析:手机上的bundleid 与后台plist文件中的bundleid不一致导致的. 解决方案:用plist文 ...
教你调用数据库读取短信　记事本　通讯录文件，让ios5的短信恢复到ios4
由于高版本的ios固件向下恢复到低版固件时无法通过itunes恢复备份,所以一些数据,比如SMS需要通过提取文件的方式单独进行备份恢复特别是ios5的短信,之前很是头痛,直接将文件恢复到指定目录修改权 ...
C#编程（十三）----------方法重载
C#支持方法的重载---方法的几个版本有不同的签名即可(即,方法名相同,但是参数个数和/或类型不同).为了冲在方法,只需要声明同名单参数个数或类型不同的方法即可. 注意:两个方法不能仅在返回类型上有区 ...
Struts2标签的<s:set>标签与JSTL的<c:set>标签
<s:set>标签 set标签用于将某个值放入指定范围内.例如application.session范围等. 当某个值所在的对象图深度非常深时,例如如下:person.worker.wi ...
【linux】linux下shell命令多个变量在命令中的引用以及重新赋值给新的变量
原本的find命令: find /apps/Devops/jenkins/workspace/swapping/target/ -name '*swapping*.jar' 错误的命令: SOURCE ...
[C#技术] DataSet（DataTable）轻松的通过Sum、Aver、Count等统计出相关结果
我们在使用Sql ******这些数据库时,可以轻松的通过Sum.Aver.Count等统计出相关结果,那么,在已经把数据检索出来的DataSet(DataTable)中呢?特别是通过Web Serv ...
Tar打包、压缩与解压缩
tar在linux上是常用的打包.压缩.加压缩工具,他的参数很多,折里仅仅列举常用的压缩与解压缩参数参数: -c :create 建立压缩档案的参数: -x : 解压缩压缩档案的参数: -z : 是 ...
[转]PHP: 深入pack/unpack
From : http://my.oschina.net/goal/blog/195749 http://www.w3school.com.cn/php/func_misc_pack.asp PHP作 ...

NameNode的ZKFC机制

NameNode的ZKFC机制的更多相关文章

随机推荐

热门专题