mapreduce job提交流程源码级分析（一）（原创）

首先，在自己写的MR程序中通过org.apache.hadoop.mapreduce.Job来创建Job。配置好之后通过waitForCompletion方法来提交Job并打印MR执行过程的log。Hadoop版本是1.0.0。

public boolean waitForCompletion(boolean verbose

) throws IOException, InterruptedException, ClassNotFoundException {

if (state == JobState.DEFINE) {

submit(); //一

}

if (verbose) {

jobClient.monitorAndPrintJob(conf, info); //二

} else {

info.waitForCompletion(); //三

}

return isSuccessful(); //四

}

我们将waitForCompletion分成四步来讲解。

一、在判断状态state可以提交Job后，执行submit()方法。

Submit方法首先是确保当前的Job的状态是处于DEFINE，否则不能提交Job。然后启用新的API，即org.apache.hadoop.mapreduce下的Mapper和Reducer，这一点会在后面的MapTask和ReduceTask中觉得是否使用mapreduce包下的新API或者是mapred包下的旧API，这里默认已经使用新的了。

Connect方法会产生一个JobClient实例，用来和JobTracker通信。

jobClient.submitJobInternal(conf)用来：

1、链接JobTracker获取JobID

2、提交作业jar文件

3、提交分片信息splits

4、提交job.xml配置文件

5、提交Job

上述五步中的2~4可以看做一个过程就是向HDFS上传作业资源。由于比较

麻烦，后续会再讲提交过程。

jobClient.submitJobInternal(conf)会返回一个RunningJob—info，这个info一般是org.apache.hadoop.mapred. NetworkedJob的实例，NetworkedJob实现了RunningJob接口，可以用来跟踪作业的执行进度等一些统计信息。

提交给JobTracker后，就将作业状态调整为RUUNING，表示该作业正在被调度运行。

二、jobClient.monitorAndPrintJob(conf, info)会不断的刷新获取job运行的进度信息，并打印。waitForCompletion方法的boolean参数verbose为true表明要打印运行进度，为false就只是等待job运行结束，不打印运行日志。

三、坐等Job运行完毕，不打印日志。

四、返回作业成功与否

大体的流程比较简单，但是实际的运行过程非常复杂，不知道后面的还能不能写出来（好些东西还不清楚）。。。。代码量比较大。以此做笔记，便于和大伙交流并记忆。

有问题欢迎交流留言哈！

mapreduce job提交流程源码级分析（一）（原创）的更多相关文章

mapreduce job提交流程源码级分析（三）
mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCop ...
mapreduce job提交流程源码级分析（二）（原创）
上一小节(http://www.cnblogs.com/lxf20061900/p/3643581.html)讲到Job. submit()方法中的: info = jobClient.submitJ ...
MapReduce之Job提交流程源码和切片源码分析
hadoop2.7.2 MapReduce Job提交源码及切片源码分析首先从waitForCompletion函数进入 boolean result = job.waitForCompletion ...
Spark3.0YarnCluster模式任务提交流程源码分析
1.通过spark-submit脚本提交spark程序在spark-submit脚本里面执行了SparkSubmit类的main方法 2.运行SparkSubmit类的main方法 3.调用doSu ...
JobTracker启动流程源码级分析
org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数.JobTracker是在网络环境中提交及运行MR任务的核心位置. main方法主要代码有两 ...
TaskTracker启动过程源码级分析
TaskTracker也是作为一个单独的JVM来运行的,其main函数就是TaskTracker的入口函数,当运行start-all.sh时,脚本就是通过SSH运行该函数来启动TaskTracker的 ...
MapReduce的MapTask任务的运行源码级分析
TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动,每个task都会使用一个进程占用一个JVM来执行,org.apache.hadoop.mapred.Child方法 ...
MapReduce job在JobTracker初始化源码级分析
mapreduce job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业.而这个方法的核心提交方法是JobTracker.a ...
监听器初始化Job、JobTracker相应TaskTracker心跳、调度器分配task源码级分析
JobTracker和TaskTracker分别启动之后(JobTracker启动流程源码级分析,TaskTracker启动过程源码级分析),taskTracker会通过心跳与JobTracker通信 ...

随机推荐

安装包制作工具 SetupFactory使用2 API清单
2014-11-19 SetupFactory中可以通过其API控制很复杂的业务需求. 下图中展示了其内置的API种类与具体分类函数. 序号 API名称 API说明 1 Application.E ...
Logparser 的用法
Logparser是一款非常强大的日志分析软件,可以帮助你详细的分析网站日志.是所有数据分析和网站优化人员都应该会的一个软件.Logparser是微软的一款软件完全免费的,大家可以在微软的官网上去下载 ...
从日常开发说起，浅谈HTTP协议是做什么的。
引言 HTTP协议作为Web开发的基础一直被大多数人所熟知,不过相信有很多人只知其一不知其二.比如咱们经常用到的session会话机制是如何实现的,可能很多人都说不出来吧.其实session会话就是H ...
AngularJS - 服务简介
服务是AngularJS中非常重要的一个概念,虽然我们有了控制器,但考虑到其生命实在脆弱,我们需要用到服务. 起初用service时,我便把service和factory()理所当然地关联起来了. 确 ...
[转载]VS2012编译C语言scanf函数error的解决方法
在VS 2012 中编译 C 语言项目,如果使用了 scanf 函数,编译时便会提示如下错误: error C4996: 'scanf': This function or variable may ...
TRUNC函数，ORA-01898 精度说明符过多
TRUNC(SYSDATE)即可默认当前日期(年月日),TRUNC(SYSDATE,'yyyy-mm-dd'),精度说明符过多
__HTML_5读取文件API
//HTML5 __FileSystemApi <!doctype html> <html> <head> <meta charset="utf-8 ...
POJ3579 Median
Description Given N numbers, X1, X2, ... , XN, let us calculate the difference of every pair of numb ...
FireFox插件
Firebug和YSlow就不说了,太常用了,开发必备.
POJ 2182 Lost Cows
Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10996 Accepted: 7059 Description N (2 ...

mapreduce job提交流程源码级分析（一）（原创）

mapreduce job提交流程源码级分析（一）（原创）的更多相关文章

随机推荐

热门专题