org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数。JobTracker是在网络环境中提交及运行MR任务的核心位置。

  main方法主要代码有两句:

      //创建jobTracker对象
JobTracker tracker = startTracker(new JobConf());
//启动各个服务,包括JT内部一些重要的服务或者线程
tracker.offerService();

  一、startTracker(new JobConf())根据配置文件启动JobTracker,这个方法会调用startTracker(conf, generateNewIdentifier())方法进行启动操作,generateNewIdentifier()将会返回一个以节点当前时间格式化成“yyyyMMddHHmm”的字符串。

startTracker函数是一个静态函数,它调用JobTracker的构造函数生成一个JobTracker类的实例,构造函数主要工作是对一些重要的变量进行初始化,名为result。然后,进行了一系列初始化活动,包括启动RPC server,启动内置的jetty服务器,检查是否需要重启JobTracker等。 
初始化的重要对象包括:
  1、secretManager:DelegationTokenSecretManager的实例,MR安全管理相关类;
  2、aclsManager:ACLsManager的实例,作业级别和队列级别的管理和访问权限控制;
  3、taskScheduler:TaskScheduler的实例,调度器对象,hadoop默认的调度器是FIFO策略的JobQueueTaskScheduler;
  4、interTrackerServer:Server的实例,RPC Server;
  5、infoServer:HttpServer的实例,将Job、Task、TaskTracker相关信息显示到WEB前端,封装的是jetty;
  6、recoveryManager:RecoveryManager的实例,作业恢复管理,即JobTracker启动时,恢复上次停止时正在运行的作业,并恢复各个任务的运行状态;recoveryManager.checkAndAddJob(status)会检查出那些作业需要恢复并放入Set<JobID> jobsToRecover; // set of jobs to be recovered,为后面的recoveryManager.recover()做准备;
  7、jobHistoryServer:JobHistoryServer的实例,用于查看作业历史信息的Server;
  8、dnsToSwitchMapping:DNSToSwitchMapping的实例,用于构建集群的网络拓扑结构,它能将节点地址(IP或者host)映射成网络位置。

  二、 tracker.offerService()

 /**
* Run forever
*/
public void offerService() throws InterruptedException, IOException {
// Prepare for recovery. This is done irrespective of the status of restart
// flag.
while (true) {
try {
recoveryManager.updateRestartCount();
break;
} catch (IOException ioe) {
LOG.warn("Failed to initialize recovery manager. ", ioe);
// wait for some time
Thread.sleep(FS_ACCESS_RETRY_PERIOD);
LOG.warn("Retrying...");
}
} taskScheduler.start(); // Start the recovery after starting the scheduler
try {
recoveryManager.recover();
} catch (Throwable t) {
LOG.warn("Recovery manager crashed! Ignoring.", t);
}
// refresh the node list as the recovery manager might have added
// disallowed trackers
refreshHosts();
//用于发现和清理死掉的TaskTracker
this.expireTrackersThread = new Thread(this.expireTrackers,
"expireTrackers");
this.expireTrackersThread.start();
//用于清理长时间驻留在内存中的已经运行完成的作业信息
this.retireJobsThread = new Thread(this.retireJobs, "retireJobs");
this.retireJobsThread.start();
//用于发现已经被分配给某个TaskTracker但一直未汇报信息的任务
expireLaunchingTaskThread.start(); if (completedJobStatusStore.isActive()) {
completedJobsStoreThread = new Thread(completedJobStatusStore,
"completedjobsStore-housekeeper");
//将已经运行完成的作业运行信息保存到HDFS上,并提供了一套存取这些信息的API。
completedJobsStoreThread.start();
} // start the inter-tracker server once the jt is ready
this.interTrackerServer.start(); synchronized (this) {
state = State.RUNNING;
}
LOG.info("Starting RUNNING"); this.interTrackerServer.join();
LOG.info("Stopped interTrackerServer");
}

  1、首先是不论重启是什么状态都必须要做的recoveryManager.updateRestartCount()更新JobTracker集群重启次数,更新文件${hadoop.tmp.dir}/mapred/system/jobtracker.info。该方法首先判断如果有restartFile(就是前面说的更新文件),就删除tmpRestartFile(不管存在与否);如果不存在restartFile而存在tmpRestartFile,则将tmpRestartFile重命名为restartFile;如果两个文件都没有可能是第一次启动也可能是文件丢失了,这时就不用恢复操作了shouldRecover = false,并且创建一个restartFile写入0;再读出restartFile文件的数字,并+1,创建一个tmpRestartFile将增加后的重启次数计数器restartCount写入这个文件,删除restartFile文件,将tmpRestartFile改名为restartFile。这个重启次数存在的目的官方说法是“The whole purpose of this api is to obtain restart  counts across restarts to avoid attempt-id clashes.”

  2、taskScheduler.start()是启动调度器。默认的调度器是JobQueueTaskScheduler,其start()方法如下:

 //JobQueueTaskScheduler类的start方法主要注册了两个非常重要的监听 器:
//jobQueueJobInProgressListener和eagerTaskInitializationListener。
//前者是 JobQueueJobInProgressListener类的一个实例,该类以先进先出的方式维持一个JobInProgress的队列,
//并且监听各 个JobInProgress实例在生命周期中的变化;后者是EagerTaskInitializationListener类的一个实例,
//该类不断监 听jobInitQueue,一旦发现有新的job被提交(即有新的JobInProgress实例被加入),
//则立即调用该实例的initTasks方 法,对job进行初始化。
@Override
public synchronized void start() throws IOException {
//调用TaskScheduler.start()方法,实际上没有做任何事情
super.start();
//注册一个JobInProgressListerner监听器
taskTrackerManager.addJobInProgressListener(jobQueueJobInProgressListener);
eagerTaskInitializationListener.setTaskTrackerManager(taskTrackerManager);
eagerTaskInitializationListener.start();
taskTrackerManager.addJobInProgressListener(
eagerTaskInitializationListener);
}

  taskTrackerManager其实就是JobTracker。eagerTaskInitializationListener.start()会启动一个线程始终监控List<JobInProgress> jobInitQueue一旦发现里面有新的JobInProgress就构造一个InitJob线程放入threadPool线程池中运行,该线程通过JobTracker.initJob(JobInProgress job)对Job进行初始化。然后向JobTracker注册eagerTaskInitializationListener。 

  3、recoveryManager.recover()。JobTracker节点由于意外情况而宕机的话,那么可能有一部分Job正在执行,也有一部分Job被用户成功提交了可还没有开始被调度执行,那么当我们重启JobTracker节点的时候就需要恢复或者重做这些还没有完成的Job。这里要说的是RecoveryManager启动对未完成Job的恢复是在JobTracker节点的主线程中完成的,而且是在JobTracker节点的所有后台线程启动之前,这个调用必须要在所有的未完成的Job被完成之后才返回。也就是说,JobTracker的作业恢复管理器在恢复作业的处理过程中,JobTracker节点不会接受客户端的任何请求,也不接受TaskTracker的任何请求。这个比较复杂以后再讲解。

  4、refreshHosts()方法会先重新加载mapred.hosts和mapred.hosts.exclude指定的文件中主机信息到相应的Set中;然后从taskTrackers中找出没在mapred.hosts中但在mapred.hosts.exclude中的taskTracker从相关的数据结构中删除此taskTracker。节点均以mapred.hosts和mapred.hosts.exclude中的为准。

  5、启动一个ExpireTrackers线程会监控trackerExpiryQueue一旦里面TaskTracker有超过10分钟没有心跳的,JobTracker就认为它死了,将其从相关的数据结构trackerToMarkedTasksMap、trackerToJobsToCleanup、trackerToTasksToCleanup以及trackerToTaskMap删除。这在lostTaskTracker(TaskTracker taskTracker)方法中进行。

  6、启动一个RetireJobs线程,会将jobs中的完成的job存储一定时长后,从taskidToTrackerMap、trackerToTaskMap、taskidToTIPMap、jobs、userToJobsMap(每个用户完成的job数要>100)数据结构中删除。

  7、启动一个ExpireLaunchingTasks线程,如果一个TaskAttemptID超过10分钟没有回报信息,则JobTracker认为这个task已经失败,从launchingTasks删除相关信息,并将此task状态标注为FAILED。

  8、启动一个CompletedJobStatusStore线程,默认"mapred.job.tracker.persist.jobstatus.active"是false表示不启动这个线程,如果启用则需要指定保存时间"mapred.job.tracker.persist.jobstatus.hours"(默认是0,不保存)和保存路径"mapred.job.tracker.persist.jobstatus.dir"(默认是/jobtracker/jobsInfo)。如果不启用该线程则所有的作业运行信息全部在内存中,且随着时间及运行任务的增多早期的作业信息会被删除。

  这样JobTracker就启动了。。。。就等着Client提交Job。。。

  参考:1、董西成,《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》

     2、http://blog.csdn.net/xhh198781/article/details/7354257

JobTracker启动流程源码级分析的更多相关文章

  1. TaskTracker启动过程源码级分析

    TaskTracker也是作为一个单独的JVM来运行的,其main函数就是TaskTracker的入口函数,当运行start-all.sh时,脚本就是通过SSH运行该函数来启动TaskTracker的 ...

  2. mapreduce job提交流程源码级分析(三)

    mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCop ...

  3. Spark(四十九):Spark On YARN启动流程源码分析(一)

    引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析. spark-submit的入口函数 一般提交一个spark作业的方式采用spark-submit来提交 ...

  4. Spark(五十一):Spark On YARN(Yarn-Cluster模式)启动流程源码分析(二)

    上篇<Spark(四十九):Spark On YARN启动流程源码分析(一)>我们讲到启动SparkContext初始化,ApplicationMaster启动资源中,讲解的内容明显不完整 ...

  5. 【图解源码】Zookeeper3.7源码分析,包含服务启动流程源码、网络通信源码、RequestProcessor处理请求源码

    Zookeeper3.7源码剖析 能力目标 能基于Maven导入最新版Zookeeper源码 能说出Zookeeper单机启动流程 理解Zookeeper默认通信中4个线程的作用 掌握Zookeepe ...

  6. Android Activity启动流程源码全解析(1)

    前言 Activity是Android四大组件的老大,我们对它的生命周期方法调用顺序都烂熟于心了,可是这些生命周期方法到底是怎么调用的呢?在启动它的时候会用到startActivty这个方法,但是这个 ...

  7. Android Activity启动流程源码全解析(2)

    接上之前的分析 ++Android Activity启动流程源码全解析(1)++ 1.正在运行的Activity调用startPausingLocked 一个一个分析,先来看看startPausing ...

  8. Spring IOC容器启动流程源码解析(四)——初始化单实例bean阶段

    目录 1. 引言 2. 初始化bean的入口 3 尝试从当前容器及其父容器的缓存中获取bean 3.1 获取真正的beanName 3.2 尝试从当前容器的缓存中获取bean 3.3 从父容器中查找b ...

  9. Spring IOC 容器预启动流程源码探析

    Spring IOC 容器预启动流程源码探析 在应用程序中,一般是通过创建ClassPathXmlApplicationContext或AnnotationConfigApplicationConte ...

随机推荐

  1. C++ 多线程中的一个抛出异常

    试了一下,和Java完全不同. 注意Java和C++对于多线程里面的一个线程抛出异常的影响,完全不同. Java里面,对于主线程和其他线程完全不受影响: C++里面,整个程序会退出,所有线程都会受影响 ...

  2. Android 摇一摇之双甩功能

    Android 摇一摇之双甩功能 最近做一个摇一摇的功能 网上相关代码很多 但是这次的需求有点奇葩 要求是摇两次才生效 看起来好像很简单 但真正要做遇到的问题还是很多 时间限制 机型灵敏性 摇动的方式 ...

  3. Android控件之Button(按钮控件)和ImageButton(图片按钮控件)

    一.Button和ImageButton特证: 1.共同特证: 都可以作为一个按钮产生点击事件 2.不同特证: Button有text的属性,ImageButton没有 ImageButton有src ...

  4. 在Windows和Linux上安装paramiko模块

    一.paramiko模块有什么用? paramiko是用python语言写的一个模块,遵循SSH2协议,支持以加密和认证的方式,进行远程服务器的连接.由于使用的是python这样的能够跨平台运行的语言 ...

  5. xUtils更新到3.0后的基本使用规则

    说实话,对于xUtils,是我最近才用到的开发框架(也是刚接触),对于其功能不得不说,简化了很多的开发步骤,可以说是非常好的开发工具,但是其最近更新到3.0也没有解决加载自定义ImageView报错的 ...

  6. ios开发者证书 签发者无效

    2月14日以后,由于苹果更新安全证书:会导致本机制作的所有开发者证书无效: 钥匙串里的开发者证书无法使用 解决方式: 重新下载苹果公司的安全证书,并安装 1: 先在钥匙串里搜索到老的证书,如果有,请先 ...

  7. 小div在大div中垂直居中,以及div在页面垂直居中

    <html> <head> <title>淘宝 2faner</title> <style type="text/css"&g ...

  8. oneproxy---为实战而生之安装篇

       OneProxy是一款数据库中间件,与目前市面上的TDDL.MySQL-Proxy属于同类型产品.我们坚持研发OneProxy是基于如下几点考虑:       1. 我们不想被某一种开发语言绑定 ...

  9. C#中的ManagementClass类

    C# 提供了ManagementClass类来获取本机的一些基本信息,比如CPU的个数,CPU的频率,网卡的MAC,内存的大小,硬盘的大小等. 获取本机MAC地址: /// <summary&g ...

  10. 微信JS SDK Demo 官方案例

    微信JS-SDK是微信公众平台面向网页开发者提供的基于微信内的网页开发工具包. 通过使用微信JS-SDK,网页开发者可借助微信高效地使用拍照.选图.语音.位置等手机系统的能力,同时可以直接使用微信分享 ...