mapreduce job提交流程源码级分析（一）（原创）

首先，在自己写的MR程序中通过org.apache.hadoop.mapreduce.Job来创建Job。配置好之后通过waitForCompletion方法来提交Job并打印MR执行过程的log。Hadoop版本是1.0.0。

public boolean waitForCompletion(boolean verbose

) throws IOException, InterruptedException, ClassNotFoundException {

if (state == JobState.DEFINE) {

submit(); //一

}

if (verbose) {

jobClient.monitorAndPrintJob(conf, info); //二

} else {

info.waitForCompletion(); //三

}

return isSuccessful(); //四

}

我们将waitForCompletion分成四步来讲解。

一、在判断状态state可以提交Job后，执行submit()方法。

Submit方法首先是确保当前的Job的状态是处于DEFINE，否则不能提交Job。然后启用新的API，即org.apache.hadoop.mapreduce下的Mapper和Reducer，这一点会在后面的MapTask和ReduceTask中觉得是否使用mapreduce包下的新API或者是mapred包下的旧API，这里默认已经使用新的了。

Connect方法会产生一个JobClient实例，用来和JobTracker通信。

jobClient.submitJobInternal(conf)用来：

1、链接JobTracker获取JobID

2、提交作业jar文件

3、提交分片信息splits

4、提交job.xml配置文件

5、提交Job

上述五步中的2~4可以看做一个过程就是向HDFS上传作业资源。由于比较

麻烦，后续会再讲提交过程。

jobClient.submitJobInternal(conf)会返回一个RunningJob—info，这个info一般是org.apache.hadoop.mapred. NetworkedJob的实例，NetworkedJob实现了RunningJob接口，可以用来跟踪作业的执行进度等一些统计信息。

提交给JobTracker后，就将作业状态调整为RUUNING，表示该作业正在被调度运行。

二、jobClient.monitorAndPrintJob(conf, info)会不断的刷新获取job运行的进度信息，并打印。waitForCompletion方法的boolean参数verbose为true表明要打印运行进度，为false就只是等待job运行结束，不打印运行日志。

三、坐等Job运行完毕，不打印日志。

四、返回作业成功与否

大体的流程比较简单，但是实际的运行过程非常复杂，不知道后面的还能不能写出来（好些东西还不清楚）。。。。代码量比较大。以此做笔记，便于和大伙交流并记忆。

有问题欢迎交流留言哈！

mapreduce job提交流程源码级分析（一）（原创）的更多相关文章

mapreduce job提交流程源码级分析（三）
mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCop ...
mapreduce job提交流程源码级分析（二）（原创）
上一小节(http://www.cnblogs.com/lxf20061900/p/3643581.html)讲到Job. submit()方法中的: info = jobClient.submitJ ...
MapReduce之Job提交流程源码和切片源码分析
hadoop2.7.2 MapReduce Job提交源码及切片源码分析首先从waitForCompletion函数进入 boolean result = job.waitForCompletion ...
Spark3.0YarnCluster模式任务提交流程源码分析
1.通过spark-submit脚本提交spark程序在spark-submit脚本里面执行了SparkSubmit类的main方法 2.运行SparkSubmit类的main方法 3.调用doSu ...
JobTracker启动流程源码级分析
org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数.JobTracker是在网络环境中提交及运行MR任务的核心位置. main方法主要代码有两 ...
TaskTracker启动过程源码级分析
TaskTracker也是作为一个单独的JVM来运行的,其main函数就是TaskTracker的入口函数,当运行start-all.sh时,脚本就是通过SSH运行该函数来启动TaskTracker的 ...
MapReduce的MapTask任务的运行源码级分析
TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动,每个task都会使用一个进程占用一个JVM来执行,org.apache.hadoop.mapred.Child方法 ...
MapReduce job在JobTracker初始化源码级分析
mapreduce job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业.而这个方法的核心提交方法是JobTracker.a ...
监听器初始化Job、JobTracker相应TaskTracker心跳、调度器分配task源码级分析
JobTracker和TaskTracker分别启动之后(JobTracker启动流程源码级分析,TaskTracker启动过程源码级分析),taskTracker会通过心跳与JobTracker通信 ...

随机推荐

优秀技能经验及对java学习展望
你有什么技能比身边人强我觉得我并没有什么技能能够比身边90%的人强,我认为我是一个平庸的人,和身边的人应该是互有长短,互相帮助的. 关于优秀技能的成功经验我虽然没有一个强过身边90%的人的技能,但 ...
无光驱安装原版 windows server2008,win7 的方法，64位的。
这几天要对一台服务器进行安装 windows server2008的系统,64位.尼玛在网上买了一个光驱迟迟不到所以只能用U盘来了以前安装ghost的系统U盘分分钟搞定.安装原版的iso文件遇到了一 ...
简述WebService的使用（一）
环境: vs版本:vs2013 windows版本:win7 IIS版本:IIS7.0 (如果觉得对您有用,请点击右下角[推荐]一下,让更多人看到,谢谢) 配置环境: 主要针对于IIS ·首先,有很多 ...
C# HttpWebRequest提交数据方式浅析
C# HttpWebRequest提交数据方式学习之前我们先来看看什么是HttpWebRequest,它是 .net 基类库中的一个类,在命名空间 System.Net 下面,用来使用户通过HTTP协 ...
setter方法的内存错误
- (void)setList:(ClassicList *)list { self.list = list; _titleLabel.text = list.activityName; _addre ...
【OpenCV入门教程之二】OPENCV3 开源之美 — 编译源代码、配置opencv_contrib
为什么要配置opencv_contrib? opencv3.0版本功能更加模块块,一些功能模块不够完善,等足够完善在merge到主分支中,而我们图像识别中要用到的SIFT等算法被封装在xfeactu ...
JavaIO中的Reader和writer
1.reader package com.io.Reader; import java.io.BufferedReader; import java.io.FileInputStream; impor ...
泛——复习js高级第三版
1:本地存储的几种方法: (1)cookie: (2)localStorage //园子的自动保存就用了本地存储 (3)sessionStorage (4)globalStorage (5)index ...
Java 使用正则表达式
用正则表达式来处理掉内容中的特定字符,下面的代码为,去掉P标签中的属性width 设置.将P标签处理后在拼接成字符串 /** * 给 P 标签去掉width 样式设置 * @param content ...
BZOJ-3668 起床困难综合症位运算+贪心
faebdc学长杂题选讲中的题目...还是蛮简单的...位运算写的不熟练... 3668: [Noi2014]起床困难综合症 Time Limit: 10 Sec Memory Limit: 512 ...

mapreduce job提交流程源码级分析（一）（原创）

mapreduce job提交流程源码级分析（一）（原创）的更多相关文章

随机推荐

热门专题