JobProgressListener类是Spark的ListenerBus中一个很重要的监听器，可以用于记录Spark任务的Job和Stage等信息，比如在Spark UI页面上Job和Stage运行状况以及运行进度的显示等数据，就是从JobProgressListener中获得的。另外，SparkStatusTracker也会从JobProgressListener中获取Spark运行信息。外部应用也可以通过Spark提供的status相关API比如AllJobResource, AllStagesResource, OneJobResource, OneStageResource获取到Spark程序的运行信息。

　　JobProgressListener类的继承关系，以及该类中重要的属性和方法，见下图

　　

　　

　　在Spark-1.6.0中，JobProgressListener对象生成后，会被add到一个LiveListenerBus类型的ListenerBus中。LiveListenerBus类的基础关系，以及该类中重要方法和属性见下图

　　

　　文章接下来分析在一个Spark Application中JobProgressListener的生命周期，以及其数据接收和传递的过程。

一、JobProgressListener生成和数据写入

1、JobProgressListener生成

　　在源代码中，JobProgressListener在SparkContext对象创建时就生成了，

private[spark] val listenerBus = new LiveListenerBus //listenerBus

private var _jobProgressListener: JobProgressListener = _ //定义

...

_jobProgressListener = new JobProgressListener(_conf) //生成

private[spark] def jobProgressListener: JobProgressListener = _jobProgressListener //使用

listenerBus.addListener(jobProgressListener) //使用

　　从上面的代码中看到，jobProgressListener在生成后，spark将其存入了LiveListenerBus对象中，其他任何接收到listenerBus的地方都能从中获取到这个jobProgressListener对象。另外在创建SparkUI对象时，使用到了_jobProgressListener对象，使得Spark UI页面能够从该对象中获取Spark应用程序的运行时数据。或者也可以像SparkStatusTracker对象那样，直接从SparkContext对象中获取jobProgressListener。

　　最后，在SparkContext中调用setupAndStartListenerBus()方法，启动和初始化listenerBus。我们可以看到，在该方法中最后调用了listenerBus.start(this)方法真正启动listenerBus。

　　

2、JobProgressListener接收事件

（1）事件进入LiveListenerBus

　　LiveListenerBus继承自AsynchronousListenerBus，可以看到这里是多线程的方式。里面维持了一个大小为10000的eventQueue，LinkedBlockingDeque类型。这个可以和DAGScheduler中提到的EventLoop类中的eventQueue对比分析。

　　eventQueue接收事件调用的是post方法，这里调用的是LinkedBlockingDeque.offer方法，而EventLoop中调用的是LinkedBlockingDeque.put，可以比较这两者的区别。

  def post(event: E) {

    if (stopped.get) {

      // Drop further events to make `listenerThread` exit ASAP

      logError(s"$name has already stopped! Dropping event $event")

      return

    }

    val eventAdded = eventQueue.offer(event) // 向eventQueue提交event

    if (eventAdded) {

      eventLock.release() // 如果提交成功则释放锁

    } else {

      onDropEvent(event) // 否则丢弃该事件

    }

  }

　　所以说，各类事件都是调用AsynchronousListenerBus.post方法传入eventQueue中的。比如，在DAGScheduler类中，可以看到总共有14个调用的地方，下面列举出其中12个不同的。

DAGScheduler方法	SparkListenerEvent事件	描述
executorHeartbeatReceived	SparkListenerExecutorMetricsUpdate	executor向master发送心跳表示BlockManager仍然存活
handleBeginEvent	SparkListenerTaskStart	task开始执行事件
cleanUpAfterSchedulerStop	SparkListenerJobEnd	Job结束事件
handleGetTaskResult	SparkListenerTaskGettingResult	task获取结果事件
handleJobSubmitted	SparkListenerJobStart	Job开始事件
handleMapStageSubmitted	SparkListenerJobStart	Job开始事件
submitMissingTasks	SparkListenerStageSubmitted	Stage提交事件
handleTaskCompletion	SparkListenerTaskEnd	Task结束事件
handleTaskCompletion	SparkListenerJobEnd	Job结束事件
markStageAsFinished	SparkListenerStageCompleted	Stage结束事件
failJobAndIndependentStages	SparkListenerJobEnd	Job结束事件
markMapStageJobAsFinished	SparkListenerJobEnd	Job结束事件

　　分析到这里，各种SparkListenerEvent事件传递到了eventQueue中，那么如何进一步传递到JobProgessListener中呢？接下来JobProgressListener作为消费者，从eventQueue中消费这些SparkListenerEvent。

　　

（2）事件进入到JobProgressListener

　　从SparkContext中启动LiveListenerBus线程开始，LiveListenerBus继承自AsynchronousListenerBus的run方法便一直在多线程运行。在run中有一段主要逻辑，

val event = eventQueue.poll

if (event == null) {

  // Get out of the while loop and shutdown the daemon thread

  if (!stopped.get) {

    throw new IllegalStateException("Polling `null` from eventQueue means" +

      " the listener bus has been stopped. So `stopped` must be true")

  }

  return

}

postToAll(event)

　　从eventQueue取出事件后，调用LiveListenerBus的postToAll方法，将事件分发到各Listener中。

　　具体看一下LiveListenerBus的postToAll方法，这个方法从ListenerBus继承。

private[spark] trait ListenerBus[L <: AnyRef, E] extends Logging {

  // 维持一个Array来存储add到该bus中的所有listener

  private[spark] val listeners = new CopyOnWriteArrayList[L]

  /**

   * 调用addListener方法会把传入的listener对象存入listeners中

   */

  final def addListener(listener: L) {

    listeners.add(listener)

  }

  /**

   * spark通过调用这个方法，spark的各种事件都会触发listenerBus中所有listener对该事件作出响应

   */

  final def postToAll(event: E): Unit = {

    val iter = listeners.iterator

    while (iter.hasNext) {

      val listener = iter.next()

      try {

      /**

      * onPostEvent方法在SparkListenerBus类中具体实现，针对不同的事件采取不同的方法

      * 比如stageSubmitted, stageCompleted, jobStart, jobEnd, taskStart,

      * applicationStart, blockManagerAdded，executorAdded等事件

      * 分别调用SparkListener中不同方法进行处理

      */

        onPostEvent(listener, event)

      } catch {

        case NonFatal(e) =>

          logError(s"Listener ${Utils.getFormattedClassName(listener)} threw an exception", e)

      }

    }

  }

}

2、JobProgressListener对各种事件的响应

　　那么接下来，从JobProgressListener对各种事件的响应方法出发，对其状态变更逻辑作一个简要梳理，很多方法从其命名上就能看出其主要功能，有需要的可以进入具体方法中做进一步的研究。JobProgressListener能做出响应的所有SparkListenerEvent事件，基本上都列在前面的表格中了。各类事件基本上都是从DAGScheduler中传入的，可以参考Spark Scheduler模块源码分析之DAGScheduler

(1)Job级别信息

　　这里主要涉及到Job开始和结束的两个方法

onJobStart(SparkListenerJobStart)

　　在Job开始时，获取job的一些基本信息，比如参数spark.jobGroup.id 确定的JobGroup。然后生成一个JobUIData对象，用于在Spark UI页面上显示Job的ID，提交时间，运行状态，这个Job包含的Stage个数，完成、跳过、失败的Stage个数。以及总的Task个数，以及完成、失败、跳过、正在运行的Task个数。该Job中包含的所有Stage都存入pendingStages中。
onJobEnd(SparkListenerJobEnd)

　　在Job完成时，根据该Job的最终状态是成功还是失败，分别把该job的相关信息存入completedJob对象和failedJobs对象中，同时把成功或者失败的job数加一。然后循环处理该Job的每一个Stage，将该Stage对应的当前Job移除，如果移除后发现该Stage再没有其他Job使用了，就把该Stage从activeStage列表中移除。接下来，如果这个Stage的提交时间为空，则表示该Stage被跳过执行，更新一下skipped的Stage个数，以及skipped的Task个数。(成功和失败的Stage的逻辑在下面一小节中)

(2)Stage级别信息

　　有关Stage的状态变更处理逻辑，这里也有Stage的submit和complete方法

onStageSubmitted(SparkListenerStageSubmitted)

　　在Stage提交后，将该Stage存入activeStages中，并且从pendingStages中移除该Stage。首先获得当前的调度池名称，如果是FIFO模式，则是default(实际上不起任何作用)，然后根据该调度池，将这个Stage放入调度池中。然后把所属job的numActiveStages加一，
onStageCompleted(SparkListenerStageCompleted)

　　在Stage完成后，从调度池中将该Stage移除，同时也从activeStages中移除。根据该Stage是成功还是失败，继续更新completedStages或failedStages，并更新这类Stage的统计数。然后把对应Job中activeStages值减一，如果这个Stage是成功的(判断依据是failureReason为空)，则把对应job的成功Stage数加一，否则把对应Job的失败Stage数加一。

　　

(3)Task级别信息

　　有关Task的方法有task开始，结束两个方法
onTaskStart(SparkListenerTaskStart)

　　当一个Task开始运行时，会把对应Stage中active状态的Task计数加一，并且把这个Task相关的信息记入对应Stage中，同时更新该Task所属Job中Active状态Task的个数。
onTaskEnd(SparkListenerTaskEnd)

　　当一个Task运行完成时，获取该Task对应Stage的executorSummary信息，这个executorSummary中记录了每个Executor对应的ExecutorSummary信息，其中包括task开始时间，失败task个数，成功task个数，输入输出字节数，shuffle read/write字节数等。然后根据这个Task所属的executorId，找到当前Task的运行统计信息execSummary。如果这个Task运行成功，就将成功task个数加一，否则就将失败task个数加一。然后根据Task运行状态，更新对应Stage中失败或成功Task个数。进一步，更新对应Job中失败或成功的Task个数。

二、SparkUI页面从JobProgressListener读取数据

　　JobProgressListener主要用在向Spark UI页面传递数据上。

Spark-1.6.0之Application运行信息记录器JobProgressListener的更多相关文章

spark运行信息及报错问题解决集锦
错误1: ERROR client.RemoteDriver: Failed to start SparkContext: java.lang.IllegalArgumentException: Ex ...
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN
快速入门使用 Spark Shell 进行交互式分析基础 Dataset 上的更多操作缓存独立的应用快速跳转本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN
SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data fr ...
Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN
集群模式概述该文档给出了 Spark 如何在集群上运行.使之更容易来理解所涉及到的组件的简短概述.通过阅读应用提交指南来学习关于在集群上启动应用. 组件 Spark 应用在集群上作为独立的进程组 ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
spark 1.6.0 安装与配置（spark1.6.0、Ubuntu14.04、hadoop2.6.0、scala2.10.6、jdk1.7）
前几天刚着实研究spark,spark安装与配置是入门的关键,本人也是根据网上各位大神的教程,尝试配置,发现版本对应最为关键.现将自己的安装与配置过程介绍如下,如有兴趣的同学可以尝试安装.所谓工欲善其 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...

随机推荐

php array_multisort函数实现按某一字段对二维数组进行排序
在工作中碰到一个页面如表格似的展示多条数据,要求根据其中的修改时间对数据进行排序, 数据格式类似于 $a = array( 0=>array( editTime=>'' addTime=& ...
[HNOI 2011]数矩形
Description 题库链接给出平面上 $n$ 个点,选出四个点作为矩形顶点.求出矩形最大面积. $1\leq n\leq 1500$ Solution 转载自 Z-Y-Y-S dark ...
HDU3311Dig The Wells
给定N个寺庙,和M个另外的地方. 然后给定点权,表示在这个点挖水井需要的代价. 再给定边权,为建造无向边i,j的代价. 然后求怎样弄最小的代价使得前N个点,就是寺庙都能从挖的井里得到水. 输入输出格式 ...
【BZOJ2242】【SDOI2011】计算器
Description 你被要求设计一个计算器完成以下三项任务: 1.给定y.z.p,计算y^z mod p 的值: 2.给定y.z.p,计算满足xy ≡z(mod p)的最小非负整数x: 3.给定y ...
HDU 5412 CRB and Queries 动态整体二分
Problem Description There are N boys in CodeLand.Boy i has his coding skill Ai.CRB wants to know who ...
poj 3348 Cow 凸包面积
Cows Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 8122 Accepted: 3674 Description ...
bzoj3702二叉树线段树合并
3702: 二叉树 Time Limit: 15 Sec Memory Limit: 256 MBSubmit: 600 Solved: 272[Submit][Status][Discuss] ...
python设计模式浅析
今天简单聊聊python的设计模式,GOF设计模式(c++)和Head first design pattern(Java)是两本设计模式的经典,基本可以照搬在python上面,但是你会发现pytho ...
360面试-C++后端（实习）
在线远程视频面试一面: 自我介绍. 知道哪几种排序算法,各算法的时间复杂度. 解决hash冲突的几种方式. 有哪些方法清除cache中旧的数据.不太清楚,我扯到了操作系统中缺页中断的页面置换原理上, ...
ZH奶酪：Ionic中（弹出式窗口）的$ionicModal使用方法
Ionic中[弹出式窗口]有两种(如下图所示),$ionicModal和$ionicPopup; $ionicModal是完整的页面: $ionicPopup是(Dialog)对话框样式的,直接用Ja ...

Spark-1.6.0之Application运行信息记录器JobProgressListener