TaskTracker获取并执行map或reduce任务的过程（一）

我们知道TaskTracker在默认情况下，每个3秒就行JobTracker发送一个心跳包，也就是在这个心跳包中包含对任务的请求。JobTracker返回给TaskTracker的心跳包中包含有各种action（任务），如果有满足在此TaskTracker上执行的任务的话，该任务也就包含在心跳包的响应中。在TaskTracker端有线程专门等待map或reduce任务，并从队列中取出执行。

1. TaskTracker发送心跳包

　　TaskTracker是作为一个单独的JVM运行的，它启动以后一直处于offerService（）函数中，每隔3秒就执行一次transmitHeartBeat函数，如下所示：

HeartbeatResponse heartbeatResponse = transmitHeartBeat(now);

　　该函数具体代码为：

  HeartbeatResponse transmitHeartBeat(long now) throws IOException {
　　......
    if (status == null) {

      synchronized (this) {

        status = new TaskTrackerStatus(taskTrackerName, localHostname,

                                       httpPort,

                                       cloneAndResetRunningTaskStatuses(

                                         sendCounters),

                                       failures,

                                       maxMapSlots,

                                       maxReduceSlots);

      }

    } //

    // 检查是否可以接受新的任务

    //

    boolean askForNewTask;

    long localMinSpaceStart;

    synchronized (this) {

      askForNewTask =

        ((status.countOccupiedMapSlots() < maxMapSlots ||

          status.countOccupiedReduceSlots() < maxReduceSlots) &&

         acceptNewTasks);

      localMinSpaceStart = minSpaceStart;

    }
......

    HeartbeatResponse heartbeatResponse = jobClient.heartbeat(status,

                                                              justStarted,

                                                              justInited,

                                                              askForNewTask,

                                                              heartbeatResponseId);

......

    return heartbeatResponse;

  }

　　我们从中可以看出，TaskTracker首先创建一个TaskTrackerStatus对象，其中包含有TaskTracker的各种信息，比如，map slot的数目，reducer slot槽的数目，TaskTracker所在的主机名等信息。然后，对TaskTracker的空闲的slot以及磁盘空间进行检查，如果满足相应的条件时，最终就会通过JobClient(为JobTracker的代理)将心跳信息发送给JobTracker，并得到JobTracker的响应HeartbeatResponse。如下所示，JobClient是InterTrackerProtocol的一个实例，而JobTracker实现了InterTrackerProtocol这个接口。

    this.jobClient = (InterTrackerProtocol)

    UserGroupInformation.getLoginUser().doAs(

        new PrivilegedExceptionAction<Object>() {

      public Object run() throws IOException {

        return RPC.waitForProxy(InterTrackerProtocol.class,

            InterTrackerProtocol.versionID,

            jobTrackAddr, fConf);

      }

    });

　　　　那么，TaskTracker怎样通过JobTracker的代理与JobTracker进行通信呢?它是通过RPC调用JobTracker的heartbeat(......)方法而实现的。

2. TaskTracker端获取任务

　　TaskTracker接收到任务后，会将它们放入到相应的LinkedList中，LinkedList实现了List和Queue接口，它是基于链表实现的FIFO的队列。

heartbeatInterval = heartbeatResponse.getHeartbeatInterval();if (actions != null){

          for(TaskTrackerAction action: actions) {

            if (action instanceof LaunchTaskAction) {

              addToTaskQueue((LaunchTaskAction)action);

         ......

          }

        }
　　......

　　private void addToTaskQueue(LaunchTaskAction action) {
　　　　if (action.getTask().isMapTask()) {
　　　　　　mapLauncher.addToTaskQueue(action);
　　　　} else {
　　　　　　reduceLauncher.addToTaskQueue(action);
　　　　}
　　　　}

　　TaskTracker启动的时候，创建了两个线程：mapLauncher和reduceLauncher，它们分别处理map任务和reduce任务，map任务有mapLauncher负责将其放入到LinkedList中，reduce任务有reducerLauncher负责将其放入到它维护的LinkedList中。

  public void addToTaskQueue(LaunchTaskAction action) {

      synchronized (tasksToLaunch) {

        TaskInProgress tip = registerTask(action, this);

        tasksToLaunch.add(tip);

        tasksToLaunch.notifyAll();

      }

    }

　　mapLauncher或者是reducerLauncher根据接收到的action，创建对应的TaskTracker.TaskInProgress对象，并放入到队列中，唤醒等待的线程进行处理。如下所示，该线程负责从taskToLaunch中获取task，当有空间的slot时，执行这个task。

  synchronized (tasksToLaunch) {

            while (tasksToLaunch.isEmpty()) {

              tasksToLaunch.wait();

            }

            //get the TIP

            tip = tasksToLaunch.remove(0);

            task = tip.getTask();

            LOG.info("Trying to launch : " + tip.getTask().getTaskID() +

                     " which needs " + task.getNumSlotsRequired() + " slots");

          }

.....

          //得到空闲的slot后，启动这个task

          startNewTask(tip);

　　这样，TaskTracker就得到了待处理的任务，具体如何执行请参考下一篇博客。

标签: Hadoop

TaskTracker获取并执行map或reduce任务的过程1的更多相关文章

TaskTracker获取并执行map或reduce任务的过程（一）
我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求.JobTracker返回给TaskTracker的心跳包中包含有各种a ...
TaskTracker执行map或reduce任务的过程2
TaskTracker执行map或reduce任务的过程(二) 上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的 ...
TaskTracker执行map或reduce任务的过程（二）
上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的LinkedList也即队列中获取到TaskInProgress ...
匿名函数 python内置方法（max/min/filter/map/sorted/reduce）面向过程编程
目录函数进阶三 1. 匿名函数 1. 什么是匿名函数 2. 匿名函数的语法 3. 能和匿名函数联用的一些方法 2. python解释器内置方法 3. 异常处理面向过程编程函数进阶三 1. 匿名函 ...
（转） hadoop 一个Job多个MAP与REDUCE的执行
http://blog.csdn.net/chaoping315/article/details/6221440 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进 ...
MapReduce剖析笔记之七：Child子进程处理Map和Reduce任务的主要流程
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...
Hadoop :map+shuffle+reduce和YARN笔记分享
今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等. v\:* {behavior:url(#default#VML);} o\:* ...

随机推荐

java学习笔记2——Eclipse的安装及汉化图解
Eclipse的安装有了JDK,你可以编译Java源码,运行Java程序,但是还没有代码编辑器,没有版本管理工具,也不能方便的管理工程文件,不能与团队协作.安装Eclipse,你才能完成这些工作. ...
剑指XX(游戏10) - 走正步工厂一个安静的农场游戏的代码
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2lsYW5ncXVhbg==/font/5a6L5L2T/fontsize/400/fill/I0JBQk ...
常用批处理命令总结3之Find和FindStr
原文:常用批处理命令总结3之Find和FindStr find 作用:从文件中收索字符串格式:find 参数 "字符串" 路径\文件名参数: /V 显示所有未包含指定字符串的行 ...
javascript常用知识点集
javascript常用知识点集目录结构一.jquery源码中常见知识点二.javascript中原型链常见的知识点三.常用的方法集知识点一.jquery源码中常见的知识点 1.string ...
openfire修改服务器名称方法
1.登陆openfire管理页面,在主页面下方选择编辑属性,修改服务器名称为当前主机名称,点击保存属性,按页面提示重启服务器. 2.重启后,主页的服务器属性下的服务器名称出现一个叹号,鼠标放上去显示F ...
Sample Page
This is an example page. It's different from a blog post because it will stay in one place and will ...
DDD分层架构之聚合
DDD分层架构之聚合前面已经介绍了DDD分层架构的实体和值对象,本文将介绍聚合以及与其高度相关的并发主题. 我在之前已经说过,初学者第一步需要将业务逻辑尽量放到实体或值对象中,给实体“充血”,这样可 ...
邮箱自动完成（jquary效果）
邮箱自动完成的效果在网站上大多都看过,但是质量参差不齐,今天突然在网上看到一篇博客,感觉这个插件很好,就想来写一下分享给大家! 效果图如下! 完整demo代码如下: <!DOCTYPE html ...
Office文档在线编辑的实现之一
因为项目的关系,研究了一下Office的在线编辑功能,写出来共享一下. Office xp之后的版本支持通过webdav协议(http的扩展)直接编辑服务器上的文件. IIS(6.0)支持webdav ...
jQuery弹出窗口完整代码
jQuery弹出窗口完整代码效果体验:http://keleyi.com/keleyi/phtml/jqtexiao/1.htm 1 <!DOCTYPE html PUBLIC "- ...

TaskTracker获取并执行map或reduce任务的过程1

TaskTracker获取并执行map或reduce任务的过程（一）

1. TaskTracker发送心跳包

2. TaskTracker端获取任务

TaskTracker获取并执行map或reduce任务的过程1的更多相关文章

随机推荐

热门专题