Hadoop MapReduce任务的启动分析

正常情况下，我们都是启动Hadoop任务的方式大概就是通过hadoop jar命令（或者写在shell中），事实上运行的hadoop就是一个包装的.sh，下面就是其中的最后一行，表示在其中执行一个java命令，调用hadoop的一些主类，同时配置一些hadoop的相关CLASSPATH，OPTS等选项：

exec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS $CLASS "$@"

当使用hadoop jar时，调用的$CLASS是下面的类型：

org.apache.hadoop.util.RunJar

而通过hadoop jar调用的主类，必须满足条件：

1，其中有main方法，类似下面的定义：

public static void main(String[] args) throws Exception {

    int result = ToolRunner.run(new ThisClass(), args);

    System.exit(result);

}

2. ToolRunner中的的类需要有如下签名：

extends Configured implements Tool

并实现其中的public int run方法，在进行必要的hadoop job构造后，执行job的方法，同步等待执行结果并返回即可。

boolean success = job2.waitForCompletion(true);

大体的过程如下，以前也没有对整个过程进行质疑，直到我们有新的需要，在其他的客户端（java，而不是shell中）启动MapReduce任务，顺带好好看了这个函数waitForCompletion...

public boolean waitForCompletion(boolean verbose

                                 ) throws IOException, InterruptedException,

                                          ClassNotFoundException {

  if (state == JobState.DEFINE) {

    submit();

  }

  if (verbose) {

    monitorAndPrintJob();

  } else {

    // get the completion poll interval from the client.

    int completionPollIntervalMillis =

      Job.getCompletionPollInterval(cluster.getConf());

    while (!isComplete()) {

      try {

        Thread.sleep(completionPollIntervalMillis);

      } catch (InterruptedException ie) {

      }

    }

  }

  return isSuccessful();

}

读完源码后发现，其实这个方法主要的目的就是看一下当前job的状态，如果没有提交，那么就执行submit操作（同步）将其提交到集群上。传递的参数verbose，如果是true，就是表示需要检测并打印job的相关信息（使用LOG.info()来打印到console中）；否则，就等待任务的complete，反正这是个同步的操作；我们如果不需要监测任务的执行状态，仅仅进行一步submit就可以了。

那么就看一下monitorAndPrintJob这个函数吧，核心代码如下：

while (!isComplete() || !reportedAfterCompletion) {

  if (isComplete()) {

    reportedAfterCompletion = true;

  } else {

    Thread.sleep(progMonitorPollIntervalMillis);

  }

  if (status.getState() == JobStatus.State.PREP) {

    continue;

  }

  if (!reportedUberMode) {

    reportedUberMode = true;

    LOG.info("Job " + jobId + " running in uber mode : " + isUber());

  }

  String report =

    (" map " + StringUtils.formatPercent(mapProgress(), 0)+

        " reduce " +

        StringUtils.formatPercent(reduceProgress(), 0));

  if (!report.equals(lastReport)) {

    LOG.info(report);

    lastReport = report;

  }

  TaskCompletionEvent[] events =

    getTaskCompletionEvents(eventCounter, 10);

  eventCounter += events.length;

  printTaskEvents(events, filter, profiling, mapRanges, reduceRanges);

}

boolean success = isSuccessful();

if (success) {

  LOG.info("Job " + jobId + " completed successfully");

} else {

  LOG.info("Job " + jobId + " failed with state " + status.getState() +

      " due to: " + status.getFailureInfo());

}

Counters counters = getCounters();

if (counters != null) {

  LOG.info(counters.toString());

}

return success;

其实就是定时循环去报告，检查状态，其中涉及到map和reduce的总体进度（通过某种算法计算出来的百分比），如果报告与上一次有变化，就进行输出。直到任务执行完成，并将其中的所有Counter均打印出来；如果任务失败，打印出任务执行失败的原因。

最终，MapReduce的执行日志大概就是这个样子：

15/04/13 15:01:08 INFO mapreduce.Job:  map 96% reduce 28%

15/04/13 15:01:09 INFO mapreduce.Job:  map 98% reduce 28%

15/04/13 15:01:10 INFO mapreduce.Job:  map 98% reduce 32%

15/04/13 15:01:13 INFO mapreduce.Job:  map 100% reduce 33%

15/04/13 15:01:16 INFO mapreduce.Job:  map 100% reduce 37%

15/04/13 15:01:19 INFO mapreduce.Job:  map 100% reduce 46%

15/04/13 15:01:22 INFO mapreduce.Job:  map 100% reduce 54%

15/04/13 15:01:25 INFO mapreduce.Job:  map 100% reduce 62%

15/04/13 15:01:28 INFO mapreduce.Job:  map 100% reduce 68%

15/04/13 15:01:31 INFO mapreduce.Job:  map 100% reduce 71%

15/04/13 15:01:34 INFO mapreduce.Job:  map 100% reduce 76%

15/04/13 15:01:35 INFO mapreduce.Job:  map 100% reduce 100%

15/04/13 15:01:37 INFO mapreduce.Job: Job job_1421455790417_222365 completed successfully

15/04/13 15:01:37 INFO mapreduce.Job: Counters: 46

        File System Counters

                FILE: Number of bytes read=70894655

                FILE: Number of bytes written=158829484

                FILE: Number of read operations=0

                FILE: Number of large read operations=0

                FILE: Number of write operations=0

                HDFS: Number of bytes read=5151416348

                HDFS: Number of bytes written=78309

                HDFS: Number of read operations=1091

                HDFS: Number of large read operations=0

                HDFS: Number of write operations=2

        Shuffle Errors

                BAD_ID=0

                CONNECTION=0

                IO_ERROR=0

                WRONG_LENGTH=0

                WRONG_MAP=0

                WRONG_REDUCE=0

如果我们需要将任务执行进度打印出来，就可以对这部分的功能就行改进并重写。

如果任务已经提交到集群，可以使用job对象的getTrackingURL()通过页面的形式查看到其具体详情，其中job对象还提供了一些可以操作集群任务的API，包括killTask， failTask等。

在任务执行完成后，就可以得到任务的所有Counter，使用Counter来对任务的各项指标进行详细统计是非常易用有效的方式，我们在任务中定义了大量的Counter来进行该操作（包括以后以后可能会评估任务的消耗，以便进行费用统计等…）。

如果需要启动多个任务，或以某种依赖的方式启动多个顺序MapReduce任务，可以使用JobControl来链接多个任务，JobControl的run方法，会根据任务的依赖关系来调度整个过程，并提供了一些常用的API，同样可以将任务kill/fail掉。但是如果流程的复杂性稍微比较高的情况下，建议使用一套工作流系统，例如oozie，便于管理以及应对流程上的变化。

Hadoop MapReduce任务的启动分析的更多相关文章

Hadoop MapReduce执行过程实例分析
1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.实例,如何计算没见最高气温? 分析MapReduce执行过程 ...
使用hadoop mapreduce分析mongodb数据
使用hadoop mapreduce分析mongodb数据 (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明 ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输出格式分析（十九）
不多说,直接上代码. 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下. 代码版本1 package zhouls.bigdata.myMapR ...
hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
四种方案：将OpenStack私有云部署到Hadoop MapReduce环境中
摘要:OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目.这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部 ...
Hadoop Mapreduce 参数（一）
参考 hadoop权威指南第六章,6.4节背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来 ...
[python]使用python实现Hadoop MapReduce程序：计算一组数据的均值和方差
这是参照<机器学习实战>中第15章“大数据与MapReduce”的内容,因为作者写作时hadoop版本和现在的版本相差很大,所以在Hadoop上运行python写的MapReduce程序时 ...

随机推荐

vue.js 源代码学习笔记 ----- core lifecycle
/* @flow */ import config from '../config' import Watcher from '../observer/watcher' import { mark, ...
Vim使用Vundle管理插件（转）
转自:http://os.51cto.com/art/201507/484174.htm Vim是Linux上一款用途广泛的轻量级文本编辑工具.虽然对普通的Linux用户来说开始学用起来难度相当大,但 ...
CS231n课程笔记翻译3：线性分类笔记
译者注:本文智能单元首发,译自斯坦福CS231n课程笔记Linear Classification Note,课程教师Andrej Karpathy授权翻译.本篇教程由杜客翻译完成,巩子嘉和堃堃进行校 ...
Vue学习笔记 ——v-html
v-html: 在网页中,后台传来的json数据中包含html标签,将该json数据绑定到Vue.js中对象中,对该对象进行for循环,发现数据中的html标签不能被解析,而是当作字符显示出来解决: ...
Mysql Innodb 引擎优化参数（innodb_buffer_pool_size）
在mysql的学习过程中,要是不把一些基本概率弄的很清楚,难免显得过于不专业. 作用: 这个参数主要作用是缓存innodb表的索引,数据,插入数据时的缓冲默认值:128M 专用mysql服务器设置的 ...
【剑指offer】包含min函数的栈，C++实现
博客文章索引地址博客文章中代码的github地址 1.题目定义栈的数据结构,请在该类型中实现一个能够得到栈最小元素的min函数.在该栈中调用push.pop.top.min的时间复杂度都是o(1) ...
opengl去除控制台黑窗口
增加如下语句: #pragma comment(linker, "/subsystem:\"windows\" /entry:\"mainCRTStartup\ ...
ranch分析学习(一)
Ranch 是一个tcp处理的程序框架.官方的解释 Ranch is a socket acceptor pool for TCP protocols. 主要目的是提供一个方便,易用,高效,稳定的t ...
一图说明offsetTop、top、clientTop、scrollTop等
offsetParent:该属性返回一个对象的引用,这个对象是距离调用offsetParent的元素最近的(在包含层次中最靠近的),已进行过CSS定位的容器元素. 如果这个容器元素未进行CSS定位, ...
每天一个linux命令：【转载】mkdir命令
linux mkdir 命令用来创建指定的名称的目录,要求创建目录的用户在当前目录中具有写权限,并且指定的目录名不能是当前目录中已有的目录. 1．命令格式: mkdir [选项] 目录... 2．命令 ...

Hadoop MapReduce任务的启动分析

Hadoop MapReduce任务的启动分析的更多相关文章

随机推荐

热门专题