Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍

引文

学习Hadoop的同学们，一定知道如果运行Hadoop自带的各种例子，以大名鼎鼎的wordcount为例，你会输入以下命令：

hadoop org.apache.hadoop.examples.WordCount -D mapreduce.input.fileinputformat.split.maxsize= /wordcount/input /wordcount/output/result1

当然，有些人还会用以下替代方式：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6..jar wordcount /wordcount/input /wordcount/output/result1

相比于原始的执行方式，使用jar命令方式，让我们不用再敲入繁琐的完整包路径。比如我们知道hadoop-mapreduce-examples项目中还提供了其它的例子，比如计算圆周率的例子，我们只需要记住此应用的简单名字pi，就可以执行它：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6..jar pi

虽说我们只是使用这些现成的例子，没有必要较真，但是这种简洁的使用方式，无疑还是值得借鉴的。本文将分析下这种方式实现的原理，有兴趣的同学可以一读。

源码分析

这一节，我们通过对hadoop-mapreduce-examples项目中的关键源码进行分析，理解简洁执行的原理。在hadoop-mapreduce-examples项目的pom.xml文件中配置了org.apache.hadoop.examples.ExampleDriver作为jar命令的入口，配置如下：

<plugin>

  <groupId>org.apache.maven.plugins</groupId>

  <artifactId>maven-jar-plugin</artifactId>

  <configuration>

    <archive>

      <manifest>

        <mainClass>org.apache.hadoop.examples.ExampleDriver</mainClass>

      </manifest>

    </archive>

  </configuration>

</plugin>

这决定了使用jar命令执行hadoop-mapreduce-examples-2.6.0.jar包时，实际执行了ExampleDriver的main方法，ExampleDriver的实现如下：

public class ExampleDriver {

  public static void main(String argv[]){

    int exitCode = -1;

    ProgramDriver pgd = new ProgramDriver();

    try {

      pgd.addClass("wordcount", WordCount.class,

                   "A map/reduce program that counts the words in the input files.");

      // 省略其它例子的注册代码

      pgd.addClass("pi", QuasiMonteCarlo.class, QuasiMonteCarlo.DESCRIPTION);

      // 省略其它例子的注册代码

      exitCode = pgd.run(argv);

    }

    catch(Throwable e){

      e.printStackTrace();

    }

    System.exit(exitCode);

  }

}

以上代码构造了ProgramDriver的实例，并且调用其addClass方法，三个参数分别是例子名称（如wordcount、pi等）、例子的实现Class、例子的描述信息。ProgramDriver的addClass方法的实现如下：

  public void addClass(String name, Class<?> mainClass, String description)

      throws Throwable {

    programs.put(name , new ProgramDescription(mainClass, description));

  }

首先，构造ProgramDescription对象，其构造函数如下：

    public ProgramDescription(Class<?> mainClass,

                              String description)

      throws SecurityException, NoSuchMethodException {

      this.main = mainClass.getMethod("main", paramTypes);

      this.description = description;

    }

其中main的类型是java.lang.reflect.Method，用于保存例子Class的main方法。

然后，将例子名称（如wordcount、pi等）和ProgramDescription实例注册到programs中，programs的类型定义如下：

  /**

   * A description of a program based on its class and a

   * human-readable description.

   */

  Map<String, ProgramDescription> programs;

ExampleDriver的main方法在最后会调用ProgramDriver的run方法，其实现如下：

  public int run(String[] args)

    throws Throwable

  {

    // Make sure they gave us a program name.

    if (args.length == 0) {

      System.out.println("An example program must be given as the" +

                         " first argument.");

      printUsage(programs);

      return -1;

    }

    // And that it is good.

    ProgramDescription pgm = programs.get(args[0]);

    if (pgm == null) {

      System.out.println("Unknown program '" + args[0] + "' chosen.");

      printUsage(programs);

      return -1;

    }

    // Remove the leading argument and call main

    String[] new_args = new String[args.length - 1];

    for(int i=1; i < args.length; ++i) {

      new_args[i-1] = args[i];

    }

    pgm.invoke(new_args);

    return 0;

  }

ProgramDriver的run方法执行的步骤如下：

1. 参数长度校验；
2. 根据第一个参数，从programs中查找对应的ProgramDescription实例；
3. 将其余的参数传递给ProgramDescription的invoke方法，进而执行对应的例子。
ProgramDescription的invoke方法的实现如下：

    public void invoke(String[] args)

      throws Throwable {

      try {

        main.invoke(null, new Object[]{args});

      } catch (InvocationTargetException except) {

        throw except.getCause();

      }

    }

由此我们知道具体例子的执行，是通过反射调用具体例子Class的main方法，最终实现的。

后记：个人总结整理的《深入理解Spark：核心思想与源码分析》一书现在已经正式出版上市，目前京东、当当、天猫等网站均有销售，欢迎感兴趣的同学购买。

京东：http://item.jd.com/11846120.html
当当：http://product.dangdang.com/23838168.html

Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍的更多相关文章

Hadoop2.6.0子项目hadoop-mapreduce-examples的简介
引文学习Hadoop的同学们,一定知道假设执行Hadoop自带的各种样例,以大名鼎鼎的wordcount为例,你会输入下面命令: hadoop org.apache.hadoop.examples. ...
Hadoop-2.2.0中国文献——MapReduce 下一代 —配置单节点集群
Mapreduce 包你需从公布页面获得MapReduce tar包.若不能.你要将源代码打成tar包. $ mvn clean install -DskipTests $ cd hadoop-ma ...
Hadoop-2.2.0中国文献—— MapReduce 下一代 -- 公平调度
目的此文档描写叙述了 FairScheduler, Hadoop 的一个可插入式的调度器.同意 YARN 应用在一个大集群中公平地共享资源. 简单介绍公平调度是一种分配资源给应用的方法,以致到最后 ...
理解Hadoop脚本hadoop-2.5.0/bin/hadoop
1 #!/usr/bin/env bash 此处为什么不是 #!/bin/bash ? 考虑到程序的可移植性,env的作用就是为了找到正确的脚本解释器(这里就是bash),在不同的Linux ...
Hadoop 一二事(1) - 简单介绍与杂谈
大数据大数据,身边很多朋友都在谈大数据,Big Data!!! 到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧 hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的 ...
hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建（单节点）
前言本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/ ...
hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz 的集群搭建（3节点和5节点皆适用）
本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/584 ...
hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建（单节点）（Ubuntu系统）
前言本人呕心沥血所写,经过好一段时间反复锤炼和整理修改.感谢所参考的博友们!同时,欢迎前来查阅赏脸的博友们收藏和转载,附上本人的链接.http://www.cnblogs.com/zlslch/p/ ...
sqoop1.4.6+hadoop2.6.0 转载
转载地址:http://blog.csdn.net/zhangzhaokun/article/details/44313531 (1)安装环境操作系统:Linux(centos6.5 ...

随机推荐

XMl.02-约束
DTD约束 DTD的书写位置 XML构建模块 DTD定义元素 DTD属性的定义 DTD实体的定义 schema约束命名空间 schema约束的书写流程 XML被设计为一种很灵活的标记文档. 但是,有 ...
scala-尾递归
------------------------- by chenkh ----------------------------- 随笔记录什么是尾递归,为什么需要尾递归,尾递归show by exa ...
在线api地址
J2SE1.7英文api地址: http://download.oracle.com/javase/7/docs/api/J2SE1.6英文api地址: http://download.oracle ...
Random Javascript code snippets
MollyPages.org"You were wrong case.To live here is to live." Home Pages / Database / Forms ...
react-jsx
本文同步至微信公众号http://mp.weixin.qq.com/s?__biz=MzAxMzgwNDU3Mg==&mid=402252760&idx=1&sn=6952c4 ...
Unity5 AssetBundle 打包以及加载
using UnityEngine; using System.Collections; using System.Collections.Generic; using UnityEditor; us ...
windbg学习---.browse打开一个新的command 窗口
.browse r eax .browse <command>将会显示新的命令浏览窗口和运行给出的命令
iOS有用的三方库
DKNightVersion https://github.com/Draveness/DKNightVersion#podfile 用来为APP添加夜间模式和换肤功能
liToSpan
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
HashMap的两种实现方式
本文主要简要分析了Java中和Redis中HashMap的实现,并且对比了两者的异同 1.Java的实现下图表示了Java中一个HashMap的主要实现方式因为大家对于Java中HashMap的实 ...

Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍

引文

源码分析

Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍的更多相关文章

随机推荐

热门专题