[RM HA 2] Hadoop 2.0 ResourceManager HA原理

南国故人（Wall） 2024-11-05 15:28:49 原文

继上篇文章验证Cloudera RM HA功能后，现在开始分析Cloudera RM HA的原理。

设计目标

主要目的是为了解决两种问题

计划外的机器挂掉
计划内的如软件和硬件升级等.

架构

流程：两个RM, 启动的时候都是standby, 进程启动以后状态未被加载, 转换为active后才会加载相应的状态并启动服务. RM的状态通过配置可以存储在zookeeper, HDFS上。Standby转换到active可以通过命令或开启auto failover。

RM 的作业信息存储在ZK的/rmstore下，Active RM向这个目录写App信息。
RM启动的时候会通过向ZK的/hadoop-ha目录下写一个Lock文件，写成功则成为Active，否则为Standby，Standby RM会一直监控Lock文件是否存在，如果不存在则会试图去创建，即争取成为Active RM。
当Active RM挂掉，另外一个Standby RM成功转换为Active RM后，会从/rmstore读取相应的作业信息，重新构建作业的内存信息。然后启动内部服务，开始接收NM的心跳，构建集群资源信息，并接收客户端提交作业的请求等。

社区trunk版本当前也已经支持RM HA，但只支持手动切换，不支持Auto Failover。社区的基本原理和Cloudera RM HA类似，其架构图如下图所示：

对比Cloudera RM HA的架构图，仅少了Auto Failover部分。

服务端RM HA的关键部分主要为RMStateStore和ZKFailoverController。RMStateStore是实现RM状态存储的基类，主要包括存储和加载RM状态等方法。实现类主要包括FileSystemRMStateStore和ZKRMStateStore。类图如下图所示。

ZKFailoverController中维护着ActiveStandbyElector和HealthMonitor，ActiveStandbyElector主要工作是。

1. 初始化时在ZK上创建一个Lock文件，

2. Standby RM运行过程中监控ZM上的Lock文件是否存在。

HealthMonitor的主要工作是检查自己（RM）的健康状态，通过HAServiceStatus提供的getServiceStatus()和monitorHealth()方法，如果自己健康的，则会试图创建Lock文件，按照结果成为active或standby。下图是ZKFailoverController的类图，图中可以看出，Cloudera的Hadoop版本中，NameNode、Jobtracker和ResourceManager都采用相同的Auto Failover机制。

客户端的实现机制

在RM HA之前，客户端与RM的通信直接使用ApplicationClientProtocol等协议，增加RM HA后，客户端使用RetryPolicy，它提供了一种重试机制，但一个RM连不上，则会Failover到另外一台RM上。具体的实现方法是采用动态代理模式，增加RMProxy实现retry方式连接RM。下图是RMProxy的类图。

其中ClientRMProxy，代理ApplicationClientProtocol、ApplicationMasterProtocol、ResourceManagerAdministrationProtocol，实现 Yarn client、AM与RM的连接。ServerRMProxy提供给NM连接RM使用。代理ResourceTracker。

[RM HA 2] Hadoop 2.0 ResourceManager HA原理的更多相关文章

Hadoop 2.0 NameNode HA和Federation实践【转】
Hadoop 2.0 NameNode HA和Federation实践 Posted on 2012/12/10 一.背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基 ...
Hadoop 2.0中单点故障解决方案总结
Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题, ...
安装部署Apache Hadoop (完全分布式模式并且实现NameNode HA和ResourceManager HA)
本节内容: 环境规划配置集群各节点hosts文件安装JDK1.7 安装依赖包ssh和rsync 各节点时间同步安装Zookeeper集群添加Hadoop运行用户配置主节点登录自己和其他节点不 ...
Hadoop NameNode HA 和 ResourceManager HA
1.集群规划 1.1 规划说明 hadoop1 cluster1 nameNode hadoop2 cluster1 nameNodeStandby ZooKeeper ResourceManager ...
【Hadoop学习】Apache Hadoop ResourceManager HA
简介本向导简述了YARN资源管理器的HA,并详述了如何配置并使用该特性.RM负责追踪集群中的资源,并调度应用程序(如MapReduce作业).Hadoop2.4以前,RM是YARN集群中的单点故障. ...
一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）
1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Hadoop 2.7.3 HA 搭建及遇到的一些问题
看了Hadoop的一个7天视频教程,里面给出了搭建的详细步骤,教程中是按2.4.1版本搭建的,我用的是2.7.3版本,好像没什么差别.下面是抄过来的,加了一点注释. hadoop2.0已经发布了稳定版 ...
Hadoop2.0 Namenode HA实现方案
Hadoop2.0 Namenode HA实现方案介绍及汇总基于社区最新release的Hadoop2.2.0版本,调研了hadoop HA方面的内容.hadoop2.0主要的新特性(Hadoop2 ...

随机推荐

iOS学习之Object-C语言继承和初始化方法
一.继承 1.面向对象的三大特性:封装,继承,多态. 面向对象提供了继承特性.把公共的方法和实例变量写在父类里,子类只需要写自己独有的实例变量和方法即可.继承既能保证类的完整,又能简化代码. ...
mac os x 系统安装 genymotion android 模拟器
如果你有 apk 文件想运行一下看看 ,但是又没有 android 设备 ,那么 genymotion 将会是一个很好的解决方案. 1.安装下载链接: https://cloud.geny ...
16位CPU多周期设计
16位CPU多周期设计这个工程完成了16位CPU的多周期设计,模块化设计,有包含必要的分析说明. 多周期CPU结构图多周期CPU设计真值表对应某一指令的情况,但仅当对应周期时才为对应的输出,不是 ...
Mysql的相关命令
1.登录服务器 mysql -h host -u user -p mysql -h host -u user -p 数据库 2.使用SHOW语句找出服务器上当前存在什么数据库:mysql> SH ...
Js作用域与作用域链详解[转]
一直对Js的作用域有点迷糊,今天偶然读到JavaScript权威指南,立马被吸引住了,写的真不错.我看的是第六版本,相当的厚,大概1000多页,Js博大精深,要熟悉精通需要大毅力大功夫. 一:函数作 ...
Linux 下的类似Windows下Everything的搜索工具
Windows NTFS有个超级快的搜索工具Everything,非常好用,Linux下有几个类似的命令行工具,太难用了,推荐一个catfish,类似Everything,有GUI,可以自定义一个快捷 ...
为什么Linux的fdisk分区时第一块磁盘分区的First Sector是2048？
这个问题曾经困扰我很久,在了解了MBR之后,我曾认为第一块分区之前为一个block.但是用fdisk查看是2048,一直不了解其中的缘由,今天查了一下资料,大概了解了,其中的细节留着慢慢去了解. 最直 ...
android输入法中的imeoption
SDK升级到1.5以后,当文本输入框(EditText及其子类)获得焦点后,会弹出系统自带的软键盘为了实现一些自定义的功能,就稍微研究了下 * 当layout中有多个EditText,把每个控件的a ...
EF：Invalid column name 'Discriminator'.
错误信息: InnerException: System.Data.SqlClient.SqlExceptionHResult=-2146232060Message=Invalid column na ...
JavaScript对象进阶
要了解JavaScript对象,我们可以从对象创建.属性操作.对象方法这几个方面入手.概括起来,包括以下几模块: 1.创建对象 1.1 对象直接量对象直接量是创建对象最简单的方式,由若干名/值对组成 ...