MapReduce启动的Map/Reduce子任务简要分析

对于Hadoop来说，是通过在DataNode中启动Map/Reduce java进程的方式来实现分布式计算处理的，那么就从源码层简要分析一下hadoop中启动Map/Reduce任务的过程。

首先，对于Map/Reduce端启动的任务，都是通过一些参数来控制java opts的，mapreduce.map.java.opts，mapreduce.reduce.java.opts，这些参数都在MRJobConfig类中，拿map.java.opts举例来说，org.apache.hadoop.mapred.MapReduceChildJVM类中使用了这个参数，用来构造Map或Reduce端的JVM，在下面方法中拿到了ChildJavaOpts：

private static String getChildJavaOpts(JobConf jobConf, boolean isMapTask)

如果是MapTask，JavaOpts的获得具体方法内容如下（Reduce端逻辑基本一致）：

if (isMapTask) {

      userClasspath =

          jobConf.get(

              JobConf.MAPRED_MAP_TASK_JAVA_OPTS,

              jobConf.get(

                  JobConf.MAPRED_TASK_JAVA_OPTS,

                  JobConf.DEFAULT_MAPRED_TASK_JAVA_OPTS)

          );

      adminClasspath =

          jobConf.get(

              MRJobConfig.MAPRED_MAP_ADMIN_JAVA_OPTS,

              MRJobConfig.DEFAULT_MAPRED_ADMIN_JAVA_OPTS);

    // Add admin classpath first so it can be overridden by user.

    return adminClasspath + " " + userClasspath;

userClassPath按照下面的参数顺序获得：

mapreduce.map.java.opts,

mapred.child.java.opts,

DEFAULT_MAPRED_TASK_JAVA_OPTS = "-Xmx200m”;

adminClassPath要获得的参数的基本顺序：

mapreduce.admin.map.child.java.opts，

DEFAULT_MAPRED_ADMIN_JAVA_OPTS ="-Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN ";

最后，由于在JVM启动的参数中，后面能够覆盖掉前面的，因此userClassPath的同个选项的设置是可以覆盖adminClassPath，adminClassPath是不能保证所有参数不能被覆盖。

从源码端向上走，跳转到方法：

public static List<String> getVMCommand(InetSocketAddress taskAttemptListenerAddr, Task task, ID jvmID)

从这个方法中可以看到一个隐藏的设置，如果在选项中使用了@taskid@，是可以被替换成具体的attemptID的。

String javaOpts = getChildJavaOpts(conf, task.isMapTask());

javaOpts = javaOpts.replace("@taskid@", attemptID.toString());

代码中也以GC为例子，在注释中举例说明用法：

 // Add child (task) java-vm options.

    //

    // The following symbols if present in mapred.{map|reduce}.child.java.opts

    // value are replaced:

    // + @taskid@ is interpolated with value of TaskID.

    // Other occurrences of @ will not be altered.

    //

    // Example with multiple arguments and substitutions, showing

    // jvm GC logging, and start of a passwordless JVM JMX agent so can

    // connect with jconsole and the likes to watch child memory, threads

    // and get thread dumps.

    //

    //  <property>

    //    <name>mapred.map.child.java.opts</name>

    //    <value>-Xmx 512M -verbose:gc -Xloggc:/tmp/@taskid@.gc \

    //           -Dcom.sun.management.jmxremote.authenticate=false \

    //           -Dcom.sun.management.jmxremote.ssl=false \

    //    </value>

    //  </property>

    //

    //  <property>

    //    <name>mapred.reduce.child.java.opts</name>

    //    <value>-Xmx 1024M -verbose:gc -Xloggc:/tmp/@taskid@.gc \

    //           -Dcom.sun.management.jmxremote.authenticate=false \

    //           -Dcom.sun.management.jmxremote.ssl=false \

    //    </value>

    //  </property>

    //

一般情况下，我们在打印gc日志时，需要用-Xloggc:指定具体的目录，但是在MapReduce任务中你无法指定，因为可能两个Map会在同一台机器上执行，那样就肯定会发生gc文件覆盖，而实用@taskid@就可以避免这个问题。同样适用于OOM导致的堆栈打印避免文件意外被覆盖。

还会默认增加一个参数，用来设置java的临时文件夹（所有临时文件的建立都在这个文件夹，比如File.createTempFile）：

    vargs.add("-Djava.io.tmpdir=" + childTmpDir);

主类为：

org.apache.hadoop.mapred.YarnChild

一个YarnChild进程的最终完整命令为：

/usr/java/jdk1.7.0_11//bin/java -Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN -Xmx2048M -Djava.io.tmpdir=/home/data5/hdfsdir/nm-local-dir/usercache/xxx/appcache/application_1413206225298_36914/container_1413206225298_36914_01_000098/tmp -Dlog4j.configuration=container-log4j.properties -Dyarn.app.container.log.dir=/home/workspace/hadoop/logs/userlogs/application_1413206225298_36914/container_1413206225298_36914_01_000098 -Dyarn.app.container.log.filesize=209715200 -Dhadoop.root.logger=INFO,CLA org.apache.hadoop.mapred.YarnChild 192.168.7.26 21298 attempt_1413206225298_36914_r_000001_0 98

从源码端来分析该命令是如何生成的：

$JAVA_HOME: /usr/java/jdk1.7.0_11/
源码中写死: /bin/java
mapreduce.admin.map.child.java.opts：如果不设置，使用-Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN；
mapreduce.map.java.opts: Xmx2048M;
源码中添加：-Djava.io.tmpdir=/home/data5/hdfsdir/nm-local-dir/usercache/tong/appcache/application_1413206225298_36914/container_1413206225298_36914_01_000098/tmp；
org.apache.hadoop.mapred.MapReduceChildJVM.setLog4jProperties中设置log4j，包括日志级别，日志大小等：-Dlog4j.configuration=container-log4j.properties -Dyarn.app.container.log.dir=/home/workspace/hadoop/logs/userlogs/application_1413206225298_36914/container_1413206225298_36914_01_000098 -Dyarn.app.container.log.filesize=209715200 -Dhadoop.root.logger=INFO,CLA；
主类：org.apache.hadoop.mapred.YarnChild；
TaskAttempt的主机地址：192.168.7.xx；
TaskAttempt的主机端口：212xx；
TaskAttempt ID：attempt_1413206225298_36914_r_000001_0；
JVMID：98（这是干啥的不太清楚）；

最后将进程的正常和异常输出重定向：

// Finally add the jvmID

    vargs.add("1>" + getTaskLogFile(TaskLog.LogName.STDOUT));

    vargs.add("2>" + getTaskLogFile(TaskLog.LogName.STDERR));

MapReduce启动的Map/Reduce子任务简要分析的更多相关文章

Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
第九篇：Map/Reduce 工作机制分析 - 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Map/Reduce 工作机制分析 --- 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
第十篇：Map/Reduce 工作机制分析 - 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
Map/Reduce 工作机制分析 --- 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
第十一篇：Map/Reduce 工作机制分析 - 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
MapReduce剖析笔记之三：Job的Map/Reduce Task初始化
上一节分析了Job由JobClient提交到JobTracker的流程,利用RPC机制,JobTracker接收到Job ID和Job所在HDFS的目录,够早了JobInProgress对象,丢入队列 ...
mapreduce: 揭秘InputFormat--掌控Map Reduce任务执行的利器
随着越来越多的公司采用Hadoop,它所处理的问题类型也变得愈发多元化.随着Hadoop适用场景数量的不断膨胀,控制好怎样执行以及何处执行map任务显得至关重要.实现这种控制的方法之一就是自定义Inp ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...

随机推荐

jfreechart在jsp中画图方式
这个问题一直困扰我好久,今天算是稍微找到一点解决思路了,在网上搜了好多列子,大部分的都是用servlet来实现画图,偶然找到一个列子用的是org.jfree.chart.servlet.Servlet ...
python3精简笔记(二)——函数
函数下面的地址可以查看函数: https://docs.python.org/3/library/functions.html 也可以在交互式命令行通过help()查看函数的帮助信息. 如: > ...
Mac OS 升级到10.12问题 Android ADT 下载SDK问题 https://dl-ssl.google.com refused...
缘由: 更新sdk,遇到了更新下载失败问题: Fetching https://dl-ssl.google.com/android/repository/addons_list-2.xml Fetch ...
mongodb 使用
一.下载 MongoDB的官网是:http://www.mongodb.org/ MongoDB最新版本下载在官网的DownLoad菜单下:http://www.mongodb.org/downloa ...
git rebase 的作用
git rebase,顾名思义,就是重新定义(re)起点(base)的作用,即重新定义分支的版本库状态.要搞清楚这个东西,要先看看版本库状态切换的两种情况: 我们知道,在某个分支上,我们可以通过git ...
解决使用 aapt 中遇到的问题
|---- yum install glibc.i686 libstdc++.i686 zlib.i686 -y; .csharpcode, .csharpcode pre { font-size: ...
【视觉控】3D时钟
心心念念的新年过完了~却没念到年会,更没念到年终奖~哎,以任何理由不发年终奖的公司都是臭流氓~然,我们公司没有理由,压根儿就没提这事,哇卡卡卡卡!!! ======================== ...
MySQL性能指标计算方式
-- 生成报告文件到/tmp目录中 tee /tmp/mysql_performance_stat.txt -- 统计性能指标前先开启下列参数,该参数使用IS数据库来存放数据库信息,由于使用PS库存放 ...
ASP.NET Core 中的SEO优化（1）：中间件实现服务端静态化缓存
分享最近在公司成功落地了一个用ASP.NET Core 开发前台的CMS项目,虽然对于表层的开发是兼容MVC5的,但是作为爱好者当然要用尽量多的ASP.NET Core新功能了. 背景在项目开发的 ...
XML专题:使用NSXMLParser解析xml文件
使用NSXMLParser解析xml文件 1. 设置委托对象,开始解析 NSXMLParser *parser = [[NSXMLParser alloc] initWithData:data ...

MapReduce启动的Map/Reduce子任务简要分析

MapReduce启动的Map/Reduce子任务简要分析的更多相关文章

随机推荐

热门专题