【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

spark 2.1.1

系统中希望监控spark on yarn任务的执行进度，但是监控过程发现提交任务之后执行进度总是10%，直到执行成功或者失败，进度会突然变为100%，很神奇，

下面看spark on yarn任务提交过程：

spark on yarn提交任务时会把mainClass修改为Client

childMainClass = "org.apache.spark.deploy.yarn.Client"

spark-submit过程详见：https://www.cnblogs.com/barneywill/p/9820684.html

下面看Client执行过程：

org.apache.spark.deploy.yarn.Client

  def main(argStrings: Array[String]) {

...

    val sparkConf = new SparkConf

    // SparkSubmit would use yarn cache to distribute files & jars in yarn mode,

    // so remove them from sparkConf here for yarn mode.

    sparkConf.remove("spark.jars")

    sparkConf.remove("spark.files")

    val args = new ClientArguments(argStrings)

    new Client(args, sparkConf).run()

...

  def run(): Unit = {

    this.appId = submitApplication()

...

  def submitApplication(): ApplicationId = {

...

      val containerContext = createContainerLaunchContext(newAppResponse)

...

  private def createContainerLaunchContext(newAppResponse: GetNewApplicationResponse)

    : ContainerLaunchContext = {

...

    val amClass =

      if (isClusterMode) {

        Utils.classForName("org.apache.spark.deploy.yarn.ApplicationMaster").getName

      } else {

        Utils.classForName("org.apache.spark.deploy.yarn.ExecutorLauncher").getName

      }

这里调用过程为Client.main->run->submitApplication->createContainerLaunchContext，然后会设置amClass，最终都会调用到ApplicationMaster，因为ExecutorLauncher内部也是调用ApplicationMaster，如下：

org.apache.spark.deploy.yarn.ExecutorLauncher

object ExecutorLauncher {

  def main(args: Array[String]): Unit = {

    ApplicationMaster.main(args)

  }

}

下面看ApplicationMaster：

org.apache.spark.deploy.yarn.ApplicationMaster

  def main(args: Array[String]): Unit = {

...

    SparkHadoopUtil.get.runAsSparkUser { () =>

      master = new ApplicationMaster(amArgs, new YarnRMClient)

      System.exit(master.run())

    }

...

  final def run(): Int = {

...

      if (isClusterMode) {

        runDriver(securityMgr)

      } else {

        runExecutorLauncher(securityMgr)

      }

...

  private def registerAM(

      _sparkConf: SparkConf,

      _rpcEnv: RpcEnv,

      driverRef: RpcEndpointRef,

      uiAddress: String,

      securityMgr: SecurityManager) = {

...

    allocator = client.register(driverUrl,

      driverRef,

      yarnConf,

      _sparkConf,

      uiAddress,

      historyAddress,

      securityMgr,

      localResources)

    allocator.allocateResources()

    reporterThread = launchReporterThread()

...

  private def launchReporterThread(): Thread = {

    // The number of failures in a row until Reporter thread give up

    val reporterMaxFailures = sparkConf.get(MAX_REPORTER_THREAD_FAILURES)

    val t = new Thread {

      override def run() {

        var failureCount = 0

        while (!finished) {

          try {

            if (allocator.getNumExecutorsFailed >= maxNumExecutorFailures) {

              finish(FinalApplicationStatus.FAILED,

                ApplicationMaster.EXIT_MAX_EXECUTOR_FAILURES,

                s"Max number of executor failures ($maxNumExecutorFailures) reached")

            } else {

              logDebug("Sending progress")

              allocator.allocateResources()

            }

...

这里调用过程为ApplicationMaster.main->run，run中会调用runDriver或者runExecutorLauncher，最终都会调用到registerAM，其中会调用YarnAllocator.allocateResources，然后在launchReporterThread中会启动一个thread，其中也会不断调用YarnAllocator.allocateResources，下面看YarnAllocator：

org.apache.spark.deploy.yarn.YarnAllocator

  def allocateResources(): Unit = synchronized {

    updateResourceRequests()

    val progressIndicator = 0.1f

    // Poll the ResourceManager. This doubles as a heartbeat if there are no pending container

    // requests.

    val allocateResponse = amClient.allocate(progressIndicator)

可见这里会设置进度为0.1，即10%，而且是硬编码，所以spark on yarn的执行进度一直为10%，所以想监控spark on yarn的任务进度看来是徒劳的；

【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%的更多相关文章

【原创】大叔经验分享（21）yarn中查看每个应用实时占用的内存和cpu资源
在yarn中的application详情页面 http://resourcemanager/cluster/app/$applicationId 或者通过application命令 yarn appl ...
【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖
spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖: 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖: 这两种方式在oozie上 ...
【原创】大叔经验分享（47）yarn开启日志归集
yarn开启日志归集功能,除了配置之外 yarn.log-aggregation-enable=true 还要检查/tmp/logs目录是否存在以及权限,尤其是在开启kerberos之后,有些目录可能 ...
【原创】大叔经验分享（9）yarn重要配置yarn.nodemanager.local-dirs
yarn中有一个比较重要的配置yarn.nodemanager.local-dirs,如果配置的不好,在饱和状态运行下集群会出现很多问题:1 默认配置${hadoop.tmp.dir}/nm-loca ...
【原创】大叔经验分享（4）Yarn ResourceManager页面如何实现主被自动切换
hdfs.yarn.hbase这些组件的master支持多个,实现自动主备切换,其中hdfs.hbase无论访问主master或者备master都可以正常访问页面,但是yarn比较特别,只有主mast ...
【原创】大叔经验分享（46）用户提交任务到yarn报错
用户提交任务到yarn时有可能遇到下面的错误: 1) Requested user anything is not whitelisted and has id 980,which is below ...
【原创】大叔经验分享（48）oozie中通过shell执行impala
oozie中通过shell执行impala,脚本如下: $ cat test_impala.sh #!/bin/sh /usr/bin/kinit -kt /tmp/impala.keytab imp ...
【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost.. ...
spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED
spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN application has exited unexpectedly w ...

随机推荐

FineUIPro v5.2.0已发布（jQuery升级，自定义图标，日期控件）
FineUIPro/MVC/Core/JS v5.2.0 已经于 2018-8-20 发布,官网示例已更新,如果大家在测试中发现任何问题,请回复本帖,谢谢了. 在线示例: FineUI Pro:htt ...
什么是面向切面编程AOP
一丶前言看过一些描述关于AOP切面编程的文章,写的太概念化让人很难理解,下面是我自己的理解,希望能帮到新人,如有错误欢迎指正. 二丶AOP是什么,它的应用场景是什么? AOP也跟IOC,OOP这些思 ...
Python 属性描述符和属性的查找过程
属性描述符可以用来控制给属性赋值的时候的一些行为 import numbers class IntField: def __get__(self, instance, owner): return s ...
iview render input每输入一个字符就会自动跳出焦点
假如你绑定的table的数据是tableData,input数据改变的时候你把整行的数据替换掉,就不会造成table重新渲染,导致input失焦了 h('InputNumber', { props: ...
Python——Flask框架——程序的结构
一.项目结构 |-flasky |-app Flask程序一般都保存在这里 |-templates/ |-static/ |main/ |-__init__.py |-errors.py |-form ...
IE 11 flex布局兼容性问题 ---- 不支持min-height 和flex:1
由于最近项目要嵌入其它平台,所以要做IE11 的兼容,那就用IE11打开网页看一看,一看吓一跳,页脚直接到了页眉的下面,并把主要内容覆盖了,也就是stick footer 布局失效了,我写了一个简易的 ...
leetcode-884两句话中的不常见单词
''' 给定两个句子 A 和 B . (句子是一串由空格分隔的单词.每个单词仅由小写字母组成.) 如果一个单词在其中一个句子中只出现一次,在另一个句子中却没有出现,那么这个单词就是不常见的. 返回所有 ...
CNN:Channel与Core的高H、宽W的权值理解
转自: 知乎问题[能否对卷积神经网络工作原理做一个直观的解释?https://www.zhihu.com/question/39022858]中YJango 的回答; 因总是忘记回答地址,方便以后查阅 ...
expansion pattern ‘Frame&’ contains no argument packs
camera/CameraImpl.h::: error: expansion pattern ‘Frame&’ contains no argument packs void read_fr ...
maven转gradle ，windows错误重定向
gradle init --type pom --stacktrace > g.log 2>&1

【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%的更多相关文章

随机推荐

热门专题