hadoop运行原理之Job运行(二) Job提交及初始化

　　本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程。

　　以WordCount为例，以前的程序都是通过JobClient.runJob()方法来提交Job，但是现在大多用Job.waitForCompletion(true)方法来提交(true表示打印出运行过程)，但其本质都是一样的，最终都是通过JobClient的submitJobInternal()方法来提交Job。

 public

   RunningJob submitJobInternal(final JobConf job

                                ) throws FileNotFoundException,

                                         ClassNotFoundException,

                                         InterruptedException,

                                         IOException {

           ......

           //为job获取id

         JobID jobId = jobSubmitClient.getNewJobId();

         Path submitJobDir = new Path(jobStagingArea, jobId.toString());

         jobCopy.set("mapreduce.job.dir", submitJobDir.toString());

         ......

         printTokens(jobId, jobCopy.getCredentials());

           status = jobSubmitClient.submitJob(

               jobId, submitJobDir.toString(), jobCopy.getCredentials());

         ......

   }

　　submitJobInternal()方法主要完成这么几个工作：得到授权令牌；检查输出目录是否已存在；创建分片；将运行作业所需的资源复制到JobTracker的文件系统中。最后调用JobSubmissionProtocol的submitJob()方法。JobTracker继承了JobSubmissionProtocol接口，所以会转到去调用JobTracker的submitJob()方法。

　　这里插一句，JobSubmissionProtocol接口有两个默认的子类实现：JobTracker和LocalJobRunner。如果使用的是hadoop的默认配置，在mapred-site.xml文件中{mapred.job.tracker}的值为“local”，此时JobSubmissionProtocol的实现使用LocalJobRunner，即使用的是本地文件系统。否则的话使用HDFS。这也是为什么我们在mapred-site.xml文件要配置{mapred.job.tracker}的原因。具体使用哪个JobSubmissionProtocol是在JobClient初始化的时候决定的。从下面JobClient的init()方法代码可以清晰的看到：

 public void init(JobConf conf) throws IOException {

     String tracker = conf.get("mapred.job.tracker", "local");

     tasklogtimeout = conf.getInt(

       TASKLOG_PULL_TIMEOUT_KEY, DEFAULT_TASKLOG_TIMEOUT);

     this.ugi = UserGroupInformation.getCurrentUser();

     if ("local".equals(tracker)) {

       conf.setNumMapTasks(1);

       this.jobSubmitClient = new LocalJobRunner(conf);

     } else {

       this.rpcJobSubmitClient =

           createRPCProxy(JobTracker.getAddress(conf), conf);

       this.jobSubmitClient = createProxy(this.rpcJobSubmitClient, conf);

     }

   }

　　接着上面来说。看看JobTracker的submit()方法。

  JobStatus submitJob(JobID jobId, String jobSubmitDir,

       UserGroupInformation ugi, Credentials ts, boolean recovered)

       throws IOException {

     // Check for safe-mode

     checkSafeMode();

     ......

     JobInProgress job = null;    

     // Submit the job

       JobStatus status;

       try {

         status = addJob(jobId, job);

       } catch (IOException ioe) {

         LOG.info("Job " + jobId + " submission failed!", ioe);

         status = job.getStatus();

         status.setFailureInfo(StringUtils.stringifyException(ioe));

         failJob(job);

         throw ioe;

       }

       return status;

     }

   }

　　首先检查系统是否处于安全模式。接着会创建JobInProgress对象，这个对象用来维护了Job运行的相关信息。然后来检查用户的队列权限，并检查内存的使用情况。最终调用addJob()方法来提交job。

     synchronized (jobs) {

       synchronized (taskScheduler) {

         jobs.put(job.getProfile().getJobID(), job);

         for (JobInProgressListener listener : jobInProgressListeners) {

           listener.jobAdded(job);

         }

       }

     }

　　这里用到了观察者模式，jobInProgressListeners是一个List<JobInProgressListener>，代表所有已注册的监听器(观察者)。listener.jobAdded(job);这行语句则分别调用所有已注册listener的jobAdded()方法。从上一篇文章中我们知道，最主要的listener就是EagerTaskInitializationListener和JobQueueJobInProgressListener。

　　JobQueueJobInProgressListener的jobAdded()方法比较简单，只有一句话，就是先构建一个JobSchedulingInfo对象，然后和JobInProgress对应起来放入jobQueue中。

　　下面是EagerTaskInitializationListener的jobAdded()方法：

   @Override

   public void jobAdded(JobInProgress job) {

     synchronized (jobInitQueue) {

       jobInitQueue.add(job);

       resortInitQueue();

       jobInitQueue.notifyAll();

     }

   }

　　这个方法首先将job(JobInProgress)添加到初始化队列中；然后按优先级对队列中的JobInProcess进行排序。上篇文件中介绍了，在EagerTaskInitializationListener中监听到有新的job(JobInProgress)添加到队列中时，则会对其进行初始化工作。最终是调用了JobTracker的initJob()方法来对job进行初始化，这部分过程在下一篇文章再写吧。

　　最后画个流程图来总结一下，画的不好，将就看一下吧。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：《Hadoop技术内幕深入理解MapReduce架构设计与实现原理》董西成

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/3999128.html

hadoop运行原理之Job运行(二) Job提交及初始化的更多相关文章

hadoop运行原理之Job运行(三) TaskTracker的启动及初始化
与JobTracker一样,TaskTracker也有main()方法,然后以线程的方式启动(继承了Runnable接口).main()方法中主要包含两步:一是创建一个TaskTracker对象:二是 ...
hadoop运行原理之Job运行(五) 任务调度
接着上篇来说.hadoop首先调度辅助型task(job-cleanup task.task-cleanup task和job-setup task),这是由JobTracker来完成的:但对于计算型 ...
hadoop运行原理之Job运行(四) JobTracker端心跳机制分析
接着上篇来说,TaskTracker端的transmitHeartBeat()方法通过RPC调用JobTracker端的heartbeat()方法来接收心跳并返回心跳应答.还是先看看这张图,对它的大概 ...
hadoop运行原理之Job运行(一) JobTracker启动及初始化
这部分的计划是这样的,首先解释JobTracker的启动过程和作业从JobClient提交到JobTracker上:然后分析TaskTracker和heartbeat:最后将整个流程debug一遍来加 ...
Web程序的运行原理及流程（二）
其实WEB服务器和WEB应用服务器这两个概念特别容易混淆可以理解为装了不同软件(服务)的两台计算机(服务器)吧先对两个概念做一个简单介绍了解了基本的概念我们再用两个典型的例子做一下比较(建立 ...
Camel运行原理分析
Camel运行原理分析以一个简单的例子说明一下camel的运行原理,例子本身很简单,目的就是将一个目录下的文件搬运到另一个文件夹,处理器只是将文件(限于文本文件)的内容打印到控制台,首先代码如下: ...
Python逆向（一）—— 前言及Python运行原理
一.前言最近在学习Python逆向相关,涉及到python字节码的阅读,编译及反汇编一些问题.经过长时间的学习有了一些眉目,为了方便大家交流,特地将学习过程整理,形成了这篇专题.专题对python逆 ...
jmeter的运行原理和测试计划要素
jmeter运行原理 1.jmeter运行在JVM虚拟机上,jmeter是以线程的方式运行的. 2.jmeter通过线程组来驱动多个线程,运行测试脚本对被测试服务器发起负载,每一个负载机上够可以运行多 ...
Python+Appium运行简单的demo，你需要理解Appium运行原理！
坚持原创输出,点击蓝字关注我吧作者:清菡博客:oschina.云+社区.知乎等各大平台都有. 目录一.Appium 的理念四个原则 1.Web-Selenium 的运行原理 2.Appium ...

随机推荐

PHP排序函数
/** * 对查询结果集进行排序 * http://www.onethink.cn * /Application/Common/Common/function.php * * @access publ ...
自定义AlertView实现模态对话框
在Windows应用程序中,经常使用模态(Model)对话框来和用户进行简单的交互,比如登录框.在IOS应用程序中,有时我们也希望做同样的事情.但IOS的UI库中,没有模态对话框,最接近那个样子的应该 ...
十分钟学会mysql数据库操作
Part1:写在最前 MySQL安装的方式有三种: ①rpm包安装 ②二进制包安装 ③源码安装这里我们推荐二进制包安装,无论从安装速度还是用于生产库安装环境来说,都是没问题的.现在生产库一般采用My ...
js瀑布流
<!doctype html><html><head><meta charset="utf-8"><title>无标题文 ...
2016年12月20日星期二 --出埃及记 Exodus 21:15
2016年12月20日星期二 --出埃及记 Exodus 21:15 "Anyone who attacks his father or his mother must be put to ...
Android first---文件读取（登录案例编写为主）
以android登录案例来介绍文件的读取与androidAPI给予的方法第一步:绘制界面绘制方法:在线性布局下面设置相对布局代码部分: <LinearLayout xmlns:androi ...
CentOS7 续
网络环境第一步:通过cmd查询自己本机的IP,然后记录下来,手工配置到本地连接上面IP:子网掩码:DNS1:101.7.8.9DNS2:202.38.184.13 第二步:给物理机本地连接配置第二 ...
史上最"恐怖"的12生肖图,绝对超猛
史上最“恐怖”的十二生肖图,绝对超猛!图片依次是:鼠牛虎兔龙蛇马羊猴鸡狗猪!
XAF How to: 实现一个WCF Application Server 并配置它的客户端应用
本主题描述了如何实现一个 WCF 中间层应用程序服务器及如何配置 XAF客户端连接到此服务器. 注意本主题演示可以由解决方案向导自动生成的代码.执行操作时,如果你想要在现有的 XAF 解决方案中实现 ...
js模板引擎
js模板引擎包括如下: template 官方参考:http://aui.github.io/artTemplate BaiduTemplate 官方参考:http://baidufe.github. ...

hadoop运行原理之Job运行(二) Job提交及初始化

hadoop运行原理之Job运行(二) Job提交及初始化的更多相关文章

随机推荐

热门专题