TaskTracker执行map或reduce任务的过程（二）

上次说到，当MapLauncher或ReduceLancher（用于执行任务的线程，它们扩展自TaskLauncher），从它们所维护的LinkedList也即队列中获取到TaskInProgress，并且TaskTracker有空闲的slot时，该线程就调用了TaskTracker的startNewTask(tip)方法，如下所示：

 public void run() {

      while (!Thread.interrupted()) {

        try {

          TaskInProgress tip;

          Task task;

          synchronized (tasksToLaunch) {

            while (tasksToLaunch.isEmpty()) {

              tasksToLaunch.wait();//当队列为空时呗阻塞，知道有新的tip到来才会被唤醒

            }

            //get the TIP

            tip = tasksToLaunch.remove(0);

            task = tip.getTask();

      ......//当有空闲的slot时执行启动一个任务

          startNewTask(tip);

      ......

      }

    }

　　接下了来就让我们看下startNewTask(tip)的神秘面纱吧，由于在其内部通过实习Runnable创建了一个线程，我们只需分析线程体的run方法即可，关键代码如下，为便于说明，给3个核心语句分别标识为**1，**2：

public void run() {

        try {

          RunningJob rjob = localizeJob(tip);        //**1

          tip.getTask().setJobFile(rjob.getLocalizedJobConf().toString());

          // task本地化已经完成，此刻如果rjob.jobConf或者rjob.ugi为空的话，会抛出异常
　　　　　　launchTaskForJob(tip, new JobConf(rjob.getJobConf()), rjob); //**2 
......  
} }

　　**1的源码如下，

    Task t = tip.getTask();

    JobID jobId = t.getJobID();

    RunningJob rjob = addTaskToJob(jobId, tip);

    InetSocketAddress ttAddr = getTaskTrackerReportAddress();

　　从中我们可以看出，首先创建了一个该任务所属的RunningJob，并把它放入到一个该TaskTracker所维护的TreeMap<jobId,RunningJob>中，同时在RunningJob中记录将要执行的task，也即把tip放入到RunningJob.tasks（一个HashSet<TaskInProgress>）中。由此，我们可以知道，每个TaskTracker都维护者一个TreeMap用以记录它正在执行的哪个作业的哪些任务(map、reduce任务)。

　　接下来localizeJob(tip)要做的就是调用initializeJob(t, rjob, ttAddr)初始化工作目录，并下载相应的job.xml以及job.jar（TaskController负责）文件，TaskController最后调用RunJar.unJar（）将包解压到相应的工作目录，，至此初始化工作完成，调用launchTaskForJob开始执行Task。

　　**2的核心代码为：

 protected void launchTaskForJob(TaskInProgress tip, JobConf jobConf,RunningJob rjob) throws IOException {

    synchronized (tip) {

      jobConf.set(JobConf.MAPRED_LOCAL_DIR_PROPERTY,

                  localStorage.getDirsString());

      tip.setJobConf(jobConf);

      tip.setUGI(rjob.ugi);

      tip.launchTask(rjob);

    }

  }

　　由此看出，它主要是调用TaskTracker.TaskInProgress的launchTask（）方法，在该方法中它创建了一个TaskRunner线程，并启这个线程执行这个task，其run方法核心代码如下：

public final void run() {
　　　　//设置工作目录

      final File workDir = new File(new Path(localdirs[rand.nextInt(localdirs.length)],

          TaskTracker.getTaskWorkDir(t.getUser(), taskid.getJobID().toString(),

          taskid.toString(),

          t.isTaskCleanupTask())).toString());
......

                
      // 设置环境变量

      List<String> classPaths = getClassPaths(conf, workDir,taskDistributedCacheManager);

   .......

　　　　//启动Task子进程

      launchJvmAndWait(setupCmds, vargs, stdout, stderr, logSize, workDir);

    }

  }

　　未完待续......　

标签: Hadoop

TaskTracker执行map或reduce任务的过程2的更多相关文章

TaskTracker执行map或reduce任务的过程（二）
上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的LinkedList也即队列中获取到TaskInProgress ...
TaskTracker获取并执行map或reduce任务的过程1
TaskTracker获取并执行map或reduce任务的过程(一) 我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求. ...
TaskTracker获取并执行map或reduce任务的过程（一）
我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求.JobTracker返回给TaskTracker的心跳包中包含有各种a ...
匿名函数 python内置方法（max/min/filter/map/sorted/reduce）面向过程编程
目录函数进阶三 1. 匿名函数 1. 什么是匿名函数 2. 匿名函数的语法 3. 能和匿名函数联用的一些方法 2. python解释器内置方法 3. 异常处理面向过程编程函数进阶三 1. 匿名函 ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...
hadoop1——map到reduce中间的shuffle过程
---恢复内容开始--- shuffle和排序过程图如下: MapReduce确保每个reduce的输入都按键排序,系统执行排序的过程——将map输出作为输入传给reduce——成为shuffle, ...
（转） hadoop 一个Job多个MAP与REDUCE的执行
http://blog.csdn.net/chaoping315/article/details/6221440 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进 ...
MapReduce剖析笔记之七：Child子进程处理Map和Reduce任务的主要流程
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ...
Hadoop :map+shuffle+reduce和YARN笔记分享
今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等. v\:* {behavior:url(#default#VML);} o\:* ...

随机推荐

hdu 3709 数字dp（小思）
http://acm.hdu.edu.cn/showproblem.php?pid=3709 Problem Description A balanced number is a non-negati ...
Linux下Nagios
Linux下Nagios的安装与配置一.Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机 ...
在Cocos2d-x正在使用SQLlite数据库
SQLite,它是一个轻量级的数据库,合规ACID的关系型数据库管理系统,它的设计目标是嵌入式的,并且眼下已经在非常多嵌入式产品中使用了它,它占用资源非常的低.在嵌入式设备中,可能仅仅须要几百K的内存 ...
Gaea是支持跨平台具有高并发、高性能、高可靠性，并提供异步、多协议、事件驱动的中间层服务框架
Gaea是支持跨平台具有高并发.高性能.高可靠性,并提供异步.多协议.事件驱动的中间层服务框架 Gaea:58同城开源的中间层服务框架 https://github.com/58code/Gaea 中 ...
利用WebBrowser实现Web打印的分析
原文:利用WebBrowser实现Web打印的分析 WebBrowser是IE内置的浏览器控件,无需用户下载.本文档所讨论的是有关IE6.0版本的WebBrowser控件技术内容.其他版本的IE应该也 ...
AIX加入能telnet远程连接方法的帐户
AIX 加入该账户可以使用命令mkuser 和 SMIT 两种方法,这里有SMIT方式 1.采用root 帐户登录AIX 2.输入 smitty user 3.选择Add a User 4.输入&qu ...
js 正则之判断密码类型
原文:js 正则之判断密码类型今天没啥写的,就分享个思路吧.之前在群里讨论的时候,谢亮兄弟说判断密码是否是纯数字,纯字母之类的.如果用 , 条判断,那就老长一大段了.这个思路是我之前看 jQuer ...
设计模式之职责链模式(Chain of Responsibility)摘录
23种GOF设计模式一般分为三大类:创建型模式.结构型模式.行为模式. 创建型模式抽象了实例化过程,它们帮助一个系统独立于怎样创建.组合和表示它的那些对象.一个类创建型模式使用继承改变被实例化的类,而 ...
一个只能用在Win下的密码验证函数(显示星号，可删除)
以前做小程序时图好玩在网上找的代码.输入的密码会以星号显示出来,并且输入错了可以删除.因为用了专有库函数,所以只能在Windows平台使用,少用为好,不过可能还有点用.嗯…就这样了 #include ...
CF - 96D - Volleyball
题意:一个无向图,有n个点,m条边,每条边有距离w,每个点有两个属性(1.从这点出发能到的最远距离,2.从这点出发的费用(不论走多远都一样)),一个人要从点x到点y,问最小费用是多少. 题目链接:ht ...

TaskTracker执行map或reduce任务的过程2

TaskTracker执行map或reduce任务的过程（二）

TaskTracker执行map或reduce任务的过程2的更多相关文章

随机推荐

热门专题