客户端MapReduce提交到YARN过程

在Mapreduce v1中是使用JobClient来和JobTracker交互完成Job的提交，用户先创建一个Job，通过JobConf设置好参数，通过JobClient提交并监控Job的进展，在JobClient中有一个内部成员变量JobSubmissionProtocol，JobTracker实现了该接口，通过该协议客户端和JobTracker通信完成作业的提交

  public void init(JobConf conf) throws IOException {

    String tracker = conf.get("mapred.job.tracker", "local");

    tasklogtimeout = conf.getInt(

      TASKLOG_PULL_TIMEOUT_KEY, DEFAULT_TASKLOG_TIMEOUT);

    this.ugi = UserGroupInformation.getCurrentUser();

    //如果mapred.job.tracker设置成local，则创建本地LocalJobRunner，否则创建RPC代理

    if ("local".equals(tracker)) {

      conf.setNumMapTasks(1);

      this.jobSubmitClient = new LocalJobRunner(conf);

    } else {

      this.jobSubmitClient = createRPCProxy(JobTracker.getAddress(conf), conf);

    }

  }

按顺序调用:

Job.waitForCompletion()

Job.submit()

jobClient.submitJobInternal()

jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCopy.getCredentials())

完成作业提交

而YARN的作业提交procotol是ClientRMProtocol，
提交MRv2作业时，首先会生成集群信息类cluster，里面有一个frameworkLoader内部变量会从配置文件中加载ClientProtocolProvider的实现类，这里分别是LocalClientProtocolProvider和 YarnClientProtocolProvider 。Cluster类在initialize中，会遍历frameworkLoader，由ClientProtocolProvider来生成具体的ClientProtocol ，比如在YarnClientProtocolProvider中就会判断JobConf中的 mapreduce.framework.name是否为 yarn，如果是的话则会生成YARNRunner

YarnClientProtocolProvider的create方法:

  @Override

  public ClientProtocol create(Configuration conf) throws IOException {

    if (MRConfig.YARN_FRAMEWORK_NAME.equals(conf.get(MRConfig.FRAMEWORK_NAME))) {

      return new YARNRunner(conf);

    }

    return null;

  }

ClientProtocol目前有两个实现 YARNRunner 和LocalJobRunner，LocalJobRunner(mapreduce.framework.name为local )主要是在本地执行mapreduce，可以方便对程序进行调试。YARNRunner是将作业提交到YARN上。

YARNRunner初始化会和ResourceManager建立RPC链接（默认是8032端口
），真正和RM通信的协议是
ClientRMProtocol
，客户端和RM交互的所有操作都会通过YARNRunner的成员变量
rmClient(
ClientRMProtocol
)提交出去，比如killApplication, getNodeReports, getJobCounters等等

  public synchronized void start() {

    YarnRPC rpc = YarnRPC.create(getConfig());

    this.rmClient = (ClientRMProtocol) rpc.getProxy(

        ClientRMProtocol.class, rmAddress, getConfig());

    if (LOG.isDebugEnabled()) {

      LOG.debug("Connecting to ResourceManager at " + rmAddress);

    }

    super.start();

  }

Cluster类初始化完成后，就要生成Application了，先和RM通信申请一个Application(getNewApplication )，得到一个GetNewApplicationResponse，里面封装了ApplicationID，和RM能提供的最小、最大Resource Capacity

public interface GetNewApplicationResponse {

  public abstract ApplicationId getApplicationId();

  public Resource getMinimumResourceCapability();

  public Resource getMaximumResourceCapability();

  public void setMaximumResourceCapability(Resource capability);

}

Resource定义了一组集群计算资源，目前只把memory和cpu纳入进来，这边的cpu指virtual core，也就是一个物理core可以被认为抽象成多个virtual core，而非一对一对应关系

public abstract class Resource implements Comparable<Resource> {

  public abstract int getMemory();

  public abstract void setMemory(int memory);

  public abstract int getVirtualCores();

  public abstract void setVirtualCores(int vCores);

}

然后需要构造ApplicationSubmissionContext，其中包含了启动MR AM的信息，比如提交的job在HDFS的staging目录路径（job.xml, job.split, job.splitmetainfo, libjars, files, archives等），用户ugi信息，Secure Tokens。完成context构造后，调用resMgrDelegate.submitApplication(appContext)

YARNRunner的submitJob方法:

  @Override

  public JobStatus submitJob(JobID jobId, String jobSubmitDir, Credentials ts)

  throws IOException, InterruptedException {

    // Construct necessary information to start the MR AM

    ApplicationSubmissionContext appContext =

      createApplicationSubmissionContext(conf, jobSubmitDir, ts);

    // Submit to ResourceManager

    ApplicationId applicationId = resMgrDelegate.submitApplication(appContext);

    ApplicationReport appMaster = resMgrDelegate.getApplicationReport(applicationId);

    String diagnostics = (appMaster == null ?

            "application report is null" : appMaster.getDiagnostics());

    if (appMaster == null || appMaster.getYarnApplicationState() == YarnApplicationState.FAILED

        || appMaster.getYarnApplicationState() == YarnApplicationState.KILLED) {

      throw new IOException("Failed to run job : " +

        diagnostics);

    }

    return clientCache.getClient(jobId).getJobStatus(jobId);

  }

最后通过getJobStatus方法获得Job状态信息

    org.apache.hadoop.mapreduce.v2.api.records.JobId jobId =

      TypeConverter.toYarn(oldJobID);

    GetJobReportRequest request =

        recordFactory.newRecordInstance(GetJobReportRequest.class);

    request.setJobId(jobId);

    JobReport report = ((GetJobReportResponse) invoke("getJobReport",

        GetJobReportRequest.class, request)).getJobReport();

客户端MapReduce提交到YARN过程的更多相关文章

经典MapReduce作业和Yarn上MapReduce作业运行机制
一.经典MapReduce的作业运行机制如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...
spark-submit提交python脚本过程记录
最近刚学习spark,用spark-submit命令提交一个python脚本,一开始老报错,所以打算好好整理一下用spark-submit命令提交python脚本的过程.先看一下spark-submi ...
【Hadoop代码笔记】Hadoop作业提交之客户端作业提交
1. 概要描述仅仅描述向Hadoop提交作业的第一步,即调用Jobclient的submitJob方法,向Hadoop提交作业. 2. 详细描述Jobclient使用内置的JobS ...
spark任务提交到yarn上命令总结
spark任务提交到yarn上命令总结 1. 使用spark-submit提交任务集群模式执行 SparkPi 任务,指定资源使用,指定eventLog目录 spark-submit --class ...
rpc,客户端与NameNode通信的过程
远程过程:java进程.即一个java进程调用另外一个java进程中对象的方法. 调用方称作客户端(client),被调用方称作服务端(server).rpc的通信在java中表现为客户端去调用服务端 ...
Android BLE与终端通信（三）——客户端与服务端通信过程以及实现数据通信
Android BLE与终端通信(三)--客户端与服务端通信过程以及实现数据通信前面的终究只是小知识点,上不了台面,也只能算是起到一个科普的作用,而同步到实际的开发上去,今天就来延续前两篇实现蓝牙主 ...
Migrating from MapReduce 1 (MRv1) to MapReduce 2 (MRv2, YARN)...
This is a guide to migrating from Apache MapReduce 1 (MRv1) to the Next Generation MapReduce (MRv2 o ...
Oracle11g R2客户端安装图文详解过程
转: Oracle11g R2客户端安装图文详解过程 2018-06-17 13:30:26 大话JAVA的那些事阅读数 4129更多分类专栏: Oracle 版权声明:本文为博主原创文章,遵 ...
3.MapReduce原理和Yarn
1.MapReduce原理 2.MapReduce执行时间 3.MapReduce开发 4.Yarn

随机推荐

创建对象的两种方法： new 和面向对象(对象字面量)及对象属性访问方法
创建对象的两种方法: new 和面向对象(对象字面量)用 new 时:var o = new Object();o.name = "lin3615";alert(o.name); ...
oracle新建表空间及用户
本文介绍命令模式(管理员权限): 1.以管理员权限打开命令控制台,输入下面命令: Sqlplus sys/管理员账户名称(就是DBA账户) as sysdba;(记得分号哦,有时没有的话会报错) 2. ...
HTML5-javascript屏幕旋转事件：onorientationchange
屏幕旋转事件:onorientationchange 添加屏幕旋转事件侦听,可随时发现屏幕旋转状态(左旋.右旋还是没旋) 判断屏幕是否旋转 function orientationChange() { ...
CodeIgniter框架介绍
入口 index.php :一些路径常量定义: => CodeIgniter.php : 1. 初始化一些 system/core内的类,例如Config, Utf8, URI 和Router等 ...
php 删除语句
if($query&&mysql_affected_rows())echo('数据已被删除');else echo('错误,无法删除'); 通过返回影响的行数来判断是否已经删除
【python之旅】python简介和入门
python简介: 一.什么是python python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了打发时间,决心开发一个新的脚本解释程序, ...
工欲善其事必先利其器-Notepad++使用小记(Python)
大学开始就一直使用Notepad++ 作为代码编辑器,喜欢它的简洁明了,喜欢它的个性,也喜欢它各种各样骚气的插件. 今天闲来无事,写篇文章记录一下平时使用的种种,包括但不限于个性化使用一些宏,快捷键, ...
WPF后台访问XAML元素
当我们需要从后台访问xaml文件时,我们可以通过这样的方式来操作: private void button1_Click(object sender, RoutedEventArgs e) { Sys ...
Java 高效检查一个数组中是否包含某个值
如何检查一个数组(未排序)中是否包含某个特定的值?在Java中,这是一个非常有用并又很常用的操作.同时,在StackOverflow中,有时一个得票非常高的问题.在得票比较高的几个回答中,时间复杂度差 ...
C#转义字符总结
转义字符 \·一种特殊的字符常量:·以反斜线"\"开头,后跟一个或几个字符.·具有特定的含义,不同于字符原有的意义,故称“转义”字符.·主要用来表示那些用一般字符不便于表示的控制代 ...

客户端MapReduce提交到YARN过程

客户端MapReduce提交到YARN过程的更多相关文章

随机推荐

热门专题