Hadoop-1.2.1学习之Job创建和提交源码分析

在Hadoop中，MapReduce的Java作业通常由编写Mapper和Reducer開始。接着创建Job对象。然后使用该对象的set方法设置Mapper和Reducer以及诸如输入输出等參数，最后调用Job对象的waitForCompletion(true)方法提交作业并等待作业的完毕。虽然使用了寥寥数语就描写叙述了作业的创建和提交，但实际情况要复杂的多。本篇文章将通过分析源码来深入学习该过程。

通常使用public Job(Configuration conf, String jobName)创建Job作业对象，都会指定作业名称，hadoop代码仅仅是将jobName设置为參数mapred.job.name的值。

除了设置作业名称外，Job的构造函数还会使用Configuration对象初始化org.apache.hadoop.mapred.JobConf对象conf，以及使用UserGroupInformation.getCurrentUser()获取当前用户ugi。当中JobConf是描写叙述MapReduce作业的主要接口，包括设置作业名称在内的很多方法都是由该类完毕的。

UserGroupInformation类用包括了用户和组的信息。该类封装了JAAS（Java
Authentication AuthorizationService。Java认证和授权服务），并提供方法确定username和组。

当创建了Job对象后一般会设置Mapper和Reducer。比方job.setMapperClass，正像上面提到的，该操作实际是由JobConf对象完毕的，详细代码例如以下，其他的设置方法类似：

public void setMapperClass(Class<?

extends Mapper> cls) throws IllegalStateException {

    ensureState(JobState.DEFINE);

    conf.setClass(MAP_CLASS_ATTR, cls, Mapper.class);

}

在设置完作业运行须要的參数后。运行job.waitForCompletion(true)向集群提交作业并等待作业运行完毕。当中的boolean类型的參数用于决定是否向用户打印作业的运行进度。该方法的详细代码例如以下：

public boolean waitForCompletion(boolean verbose) throws IOException, InterruptedException,ClassNotFoundException {

    if (state == JobState.DEFINE) {

      submit();

    }

    if (verbose) {

      jobClient.monitorAndPrintJob(conf, info);

    } else {

      info.waitForCompletion();

    }

    return isSuccessful();

}

当新创建一个作业时，该作业的JobState state = JobState.DEFINE，所以上面的代码中会运行submit方法。当在submit返回后会依据參数verbose为true或false运行不同的方法。如今详细submit的实现：

public void submit() throws IOException, InterruptedException, ClassNotFoundException {

    ensureState(JobState.DEFINE);

    setUseNewAPI();//默认使用新版本号中的API，除非显示设置了老版本号的API

    // Connect to the JobTracker and submit the job

    connect();

    info = jobClient.submitJobInternal(conf);

    super.setJobID(info.getID());

    state = JobState.RUNNING;

}

在submit中，先确认Job的state为JobState.DEFINE。并最后在将作业提交后设置为JobState.RUNNING。connect方法用于打开到JobTracker的连接，该方法的代码为：

private void connect() throws IOException, InterruptedException {

    ugi.doAs(new PrivilegedExceptionAction<Object>() {

      public Object run() throws IOException {

        jobClient = new JobClient((JobConf) getConfiguration());

        return null;

      }

    });

}

在进一步分析之前，须要先了解两个对象。各自是JobClient jobClient和RunningJobinfo，当中jobClient是用户作业与JobTracker交互的主要接口，该类具有提交作业，跟踪作业进度，訪问任务日志和获取MapReduce集群状态信息等功能。RunningJob是接口，用于查询正在执行的MapReduce作业的细节，当调用jobClient的submitJobInternal时。返回的是jobClient的内部类NetworkedJob（该类实现了RunningJob）。在connect方法中，主要是实例化了jobClient对象，而ugi的doAs方法的返回值为run方法的返回值，后面还会使用该方法（实际情况是该方法被大量使用）。在JobClient的构造方法中，主要完毕了连接JobTracker的工作，该工作又交给了init方法，该方法的详细实现为：

public void init(JobConf conf) throws IOException {

String tracker = conf.get("mapred.job.tracker", "local");

// mapreduce.client.tasklog.timeout

    tasklogtimeout = conf.getInt(

      TASKLOG_PULL_TIMEOUT_KEY, DEFAULT_TASKLOG_TIMEOUT);

    this.ugi = UserGroupInformation.getCurrentUser();

    if ("local".equals(tracker)) {

      conf.setNumMapTasks(1);

      this.jobSubmitClient = new LocalJobRunner(conf);

    } else {

      this.rpcJobSubmitClient = createRPCProxy(JobTracker.getAddress(conf), conf);

      this.jobSubmitClient = createProxy(this.rpcJobSubmitClient, conf);

    }

}

在该方法中着重分析非单机模式下的情况。即mapred.job.tracker的值不是local。也即else语句中的代码。rpcJobSubmitClient和jobSubmitClient是类型为JobSubmissionProtocol的两个对象，JobClient和JobTracker使用该接口通信，JobClient使用该接口的方法提交作业及了解当前系统的状态。方法createRPCProxy和createProxy用于创建实现JobSubmissionProtocol的client对象。

在连接到JobTracker后，接着使用jobClient的submitJobInternal向JobTracker提交作业。

在该方法中首先确定存放作业文件的路径，该路径为${mapreduce.jobtracker.staging.root.dir}/{user-name}/.staging设置，若未设置mapreduce.jobtracker.staging.root.dir则使用/tmp/hadoop/mapred/staging/${user-name}/.staging。然后在上述文件夹创建名为作业Id的文件夹，并将參数mapreduce.job.dir设置为该值。即${mapreduce.jobtracker.staging.root.dir}/{user-name}/.staging/jobId，上面的文件夹均是相对于fs.default.name设置的值。接下来将作业的jar文件复制到${mapreduce.jobtracker.staging.root.dir}/{user-name}/.staging/jobId中，并重命名为job.jar文件。该工作由copyAndConfigureFiles方法完毕。接着须要在上述文件夹中创建job.xml文件。获取Reduce任务的数量，切割输入文件并依据切割所得块数设置Map任务的数量。做完上述工作后，使用以下的代码提交作业：

status = jobSubmitClient.submitJob( jobId, submitJobDir.toString(), jobCopy.getCredentials());

当将作业提交到JobTracker后。作业的运行将由JobTracker负责，而做为提交作业的client能够选择是否打印作业运行进度。

综上在Hadoop-1.2.1中作业的创建和提交包含例如以下的一些过程：

设置作业的输入输出參数
拷贝作业文件和配置文件到特定文件夹中
计算作业的分片并设置Map任务的数量
向JobTracker提交作业并可选的监控作业执行进度

Hadoop-1.2.1学习之Job创建和提交源码分析的更多相关文章

Spring Cloud 学习之 Spring Cloud Eureka（源码分析）
Spring Cloud 学习之 Spring Cloud Eureka(源码分析) Spring Boot版本:2.1.4.RELEASE Spring Cloud版本:Greenwich.SR1 ...
Buffer的创建及使用源码分析——ByteBuffer为例
目录 Buffer概述 Buffer的创建 Buffer的使用总结参考资料 Buffer概述注:全文以ByteBuffer类为例说明在Java中提供了7种类型的Buffer,每一种类型的Buf ...
（转）Bootstrap 之 Metronic 模板的学习之路 - （2）源码分析之 head 部分
https://segmentfault.com/a/1190000006684122 下面,我们找个目录里面想对较小的文件来分析一下源码结构,我们可以看到,page_general_help.htm ...
并发编程学习笔记（七、Thread源码分析）
目录: 常见属性构造函数 start() run() 常见属性: /** * 线程名称 */ private volatile String name; /** * 线程优先级 */ private ...
[原创]java WEB学习笔记70：Struts2 学习之路-- struts2拦截器源码分析，运行流程
本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱 ...
深度学习入门-4.1 AND.py 源码分析
源代码 ------------------------------------------------------------------------------------------------ ...
（转）Bootstrap 之 Metronic 模板的学习之路 - （4）源码分析之脚本部分
https://segmentfault.com/a/1190000006709967 上篇我们将 body 标签主体部分进行了简单总览,下面看看最后的脚本部门. 页面结尾部分(Javascripts ...
（转）Bootstrap 之 Metronic 模板的学习之路 - （3）源码分析之 body 部分
https://segmentfault.com/a/1190000006697252 body 的组成结构 body 部分包含了 HEADER.CONTAINER.FOOTER,其中 CONTAIN ...
Spring AOP 源码分析 - 创建代理对象
1.简介在上一篇文章中,我分析了 Spring 是如何为目标 bean 筛选合适的通知器的.现在通知器选好了,接下来就要通过代理的方式将通知器(Advisor)所持有的通知(Advice)织入到 b ...

随机推荐

bzoj 1012 BST 支持插入，区间最大
水... /************************************************************** Problem: 1012 User: idy002 Lang ...
SPFA cojs 176. [USACO Feb07] 奶牛聚会
cojs 176. [USACO Feb07] 奶牛聚会 ★☆ 输入文件:sparty.in 输出文件:sparty.out 简单对比时间限制:3 s 内存限制:16 MB N(1 ≤ ...
js 运算符 || && 妙用
首先出个题:如图: 假设对成长速度显示规定如下: 成长速度为5显示1个箭头: 成长速度为10显示2个箭头: 成长速度为12显示3个箭头: 成长速度为15显示4个箭头: 其他都显示都显示0个箭 ...
md5加密，md5加盐加密和解密
package com.java.test; import java.security.MessageDigest; import java.security.SecureRandom; import ...
HDU 4667 Building Fence（2013多校7 1002题计算几何，凸包，圆和三角形）
Building Fence Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65535/65535 K (Java/Others)To ...
HDU 4579 Random Walk （解方程组）
Random Walk Time Limit: 5000/2000 MS (Java/Others) Memory Limit: 65535/65536 K (Java/Others)Total ...
Eclipse配置Struts2问题：ClassNotFoundException: org...dispatcher.ng.filter.StrutsPrepareAndExecuteFilter
我的解决方案一开始,我是依照某本教材,配置了User Libraries(名为struts-2.2.3, 可供多个项目多次使用), 然后直接把struts-2.2.3引入过来(这个包不会真正的放在项 ...
[转].net reactor 学习系列(四)---.net reactor应用场景
前面已经学习了.net reactor一些基础知识,现在准备学习下实际的应用场景,只是简单的保护和许可证发放场景.如果想应用更高级的场景比如自动化程序许可证的发放及自定义客户端的过期提示等等就需要自己 ...
Linux/UNIX线程（2）
线程(2) 线程同步当多个控制线程共享同样内存时,须要确保每一个线程看到一致的数据视图.假设每一个线程使用的变量都是其它线程不会读取或改动的,那么就不在一致性问题. 当两个或多个线程试图在同一时间改 ...
ARMv7处理器各个模式之间是怎样切换的？模式切换时上下文的保存哪些是硬件在做？哪些是操作系统在做？
1.ARM处理器各个模式之间是怎样切换的? 答:除用户模式外的其它6种模式称为特权模式,这些模式中,程序能够訪问全部系统资源,也能够随意进行处理器模式的切换.处理器模式能够通过软件控制进行切换(直接设 ...

Hadoop-1.2.1学习之Job创建和提交源码分析

Hadoop-1.2.1学习之Job创建和提交源码分析的更多相关文章

随机推荐

热门专题