Spark-源码分析01-Luanch Driver

1.SparkSubmit.scala

什么是Driver 呢？其实application运行的进程就是driver，也是我们所写的代码就是Driver。

object DefaultPartitionsNum {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().master("local[*]").getOrCreate()

    val rdd1 = spark.sparkContext.textFile("path")

    rdd1.collect()

  }

}

当我们执行这段代码或者通过spark-submit提交这个application时，这段代码执行时就会启动一个Driver。而Driver的入口就是在SparkContext 中。

下面就是通过 spark-submit 提交时的源码分析

主要调用M-prepareSubmitEnvironment，该方法更根据用户定义的参数，匹配不同client，去调用不同clientApp。(ps：本次讲ClientApp 也就是standalone)

在M-runMain通过调用M-Utils.classForName 反射的方式调用 ClientApp 的 M-main （ps:如果是localhost 或者是client 直接反射用户的定义的main）

几种提交方式

// Following constants are visible for testing.

private[deploy] val YARN_CLUSTER_SUBMIT_CLASS = "org.apache.spark.deploy.yarn.YarnClusterApplication"

private[deploy] val REST_CLUSTER_SUBMIT_CLASS = classOf[RestSubmissionClientApp].getName()

private[deploy] val STANDALONE_CLUSTER_SUBMIT_CLASS = classOf[ClientApp].getName()

private[deploy] val KUBERNETES_CLUSTER_SUBMIT_CLASS ="org.apache.spark.deploy.k8s.submit.KubernetesClientApplication"

private[deploy] def prepareSubmitEnvironment(

    args: SparkSubmitArguments,

    conf: Option[HadoopConfiguration] = None)

    : (Seq[String], Seq[String], SparkConf, String)

2.ClientApp.scala

最后driver粗粒度就是DriverWrapper

通过Rpc 发送给driver

override def onStart(): Unit = {

  driverArgs.cmd match {

    case "launch" =>

      val mainClass = "org.apache.spark.deploy.worker.DriverWrapper"

      asyncSendToMasterAndForwardReply[SubmitDriverResponse](RequestSubmitDriver(driverDescription))

3.Master.scala

master 接受之后，放入map缓存中，调用M-schedule，根据资源选择一个work，向该work发送启动LaunchDriver的消息

case RequestSubmitDriver(description) =>

  if (state != RecoveryState.ALIVE) {

    val msg = s"${Utils.BACKUP_STANDALONE_MASTER_PREFIX}: $state. " +

      "Can only accept driver submissions in ALIVE state."

    context.reply(SubmitDriverResponse(self, false, None, msg))

  } else {

    logInfo("Driver submitted " + description.command.mainClass)

    val driver = createDriver(description)

    persistenceEngine.addDriver(driver)

    waitingDrivers += driver

    drivers.add(driver)

    schedule()

    // TODO: It might be good to instead have the submission client poll the master to determine

    //       the current status of the driver. For now it's simply "fire and forget".

    context.reply(SubmitDriverResponse(self, true, Some(driver.id),

      s"Driver successfully submitted as ${driver.id}"))

  }

}

private def schedule(): Unit = {

  if (state != RecoveryState.ALIVE) {

    return

  }

  // Drivers take strict precedence over executors

  val shuffledAliveWorkers = Random.shuffle(workers.toSeq.filter(_.state == WorkerState.ALIVE))

  val numWorkersAlive = shuffledAliveWorkers.size

  var curPos = 0

  for (driver <- waitingDrivers.toList) { // iterate over a copy of waitingDrivers

    // We assign workers to each waiting driver in a round-robin fashion. For each driver, we

    // start from the last worker that was assigned a driver, and continue onwards until we have

    // explored all alive workers.

    var launched = false

    var numWorkersVisited = 0

    while (numWorkersVisited < numWorkersAlive && !launched) {

      val worker = shuffledAliveWorkers(curPos)

      numWorkersVisited += 1

      if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) {

        launchDriver(worker, driver)

        waitingDrivers -= driver

        launched = true

      }

      curPos = (curPos + 1) % numWorkersAlive

    }

  }

  startExecutorsOnWorkers()

}

private def launchDriver(worker: WorkerInfo, driver: DriverInfo) {

  logInfo("Launching driver " + driver.id + " on worker " + worker.id)

  worker.addDriver(driver)

  driver.worker = Some(worker)

  worker.endpoint.send(LaunchDriver(driver.id, driver.desc))

  driver.state = DriverState.RUNNING

}

4.Work.scala

work接受消息之后，new DriverRunner() 调用该对象的M-start

case LaunchDriver(driverId, driverDesc) =>

  logInfo(s"Asked to launch driver $driverId")

  val driver = new DriverRunner(

    conf,

    driverId,

    workDir,

    sparkHome,

    driverDesc.copy(command = Worker.maybeUpdateSSLSettings(driverDesc.command, conf)),

    self,

    workerUri,

    securityMgr)

  drivers(driverId) = driver

  driver.start()

5.DriverRunner.scala

该对象中，M-start 中new 了一个线程，调用prepareAndRunDriver 最后通过 ProcessBuilder调用 DriverWrapper 的main（step2中的）

private[worker] def start() = {

  new Thread("DriverRunner for " + driverId) {

    override def run() {

      var shutdownHook: AnyRef = null

      try {

        shutdownHook = ShutdownHookManager.addShutdownHook { () =>

          logInfo(s"Worker shutting down, killing driver $driverId")

          kill()

        }

        // prepare driver jars and run driver

        val exitCode = prepareAndRunDriver()

        // set final state depending on if forcibly killed and process exit code

        finalState = if (exitCode == 0) {

          Some(DriverState.FINISHED)

        } else if (killed) {

          Some(DriverState.KILLED)

        } else {

          Some(DriverState.FAILED)

        }

      } catch {

        case e: Exception =>

          kill()

          finalState = Some(DriverState.ERROR)

          finalException = Some(e)

      } finally {

        if (shutdownHook != null) {

          ShutdownHookManager.removeShutdownHook(shutdownHook)

        }

      }

      // notify worker of final driver state, possible exception

      worker.send(DriverStateChanged(driverId, finalState.get, finalException))

    }

  }.start()

}

private[worker] def prepareAndRunDriver(): Int = {

  val driverDir = createWorkingDirectory()

  val localJarFilename = downloadUserJar(driverDir)

  def substituteVariables(argument: String): String = argument match {

    case "{{WORKER_URL}}" => workerUrl

    case "{{USER_JAR}}" => localJarFilename

    case other => other

  }

  // TODO: If we add ability to submit multiple jars they should also be added here

  val builder = CommandUtils.buildProcessBuilder(driverDesc.command, securityManager,

    driverDesc.mem, sparkHome.getAbsolutePath, substituteVariables)

  runDriver(builder, driverDir, driverDesc.supervise)

}

private[worker] def prepareAndRunDriver(): Int = {

  val driverDir = createWorkingDirectory()

  val localJarFilename = downloadUserJar(driverDir)

  def substituteVariables(argument: String): String = argument match {

    case "{{WORKER_URL}}" => workerUrl

    case "{{USER_JAR}}" => localJarFilename

    case other => other

  }

  // TODO: If we add ability to submit multiple jars they should also be added here

  val builder = CommandUtils.buildProcessBuilder(driverDesc.command, securityManager,

    driverDesc.mem, sparkHome.getAbsolutePath, substituteVariables)

  runDriver(builder, driverDir, driverDesc.supervise)

}

6.DriverWrapper.scala （粗粒度Driver client)

开始调用用户指定 jar 和main 真正开始执行我们所写的代码

def main(args: Array[String]) {

  args.toList match {

    /*

     * IMPORTANT: Spark 1.3 provides a stable application submission gateway that is both

     * backward and forward compatible across future Spark versions. Because this gateway

     * uses this class to launch the driver, the ordering and semantics of the arguments

     * here must also remain consistent across versions.

     */

    case workerUrl :: userJar :: mainClass :: extraArgs =>

      val conf = new SparkConf()

      val host: String = Utils.localHostName()

      val port: Int = sys.props.getOrElse("spark.driver.port", "0").toInt

      val rpcEnv = RpcEnv.create("Driver", host, port, conf, new SecurityManager(conf))

      logInfo(s"Driver address: ${rpcEnv.address}")

      rpcEnv.setupEndpoint("workerWatcher", new WorkerWatcher(rpcEnv, workerUrl))

      val currentLoader = Thread.currentThread.getContextClassLoader

      val userJarUrl = new File(userJar).toURI().toURL()

      val loader =

        if (sys.props.getOrElse("spark.driver.userClassPathFirst", "false").toBoolean) {

          new ChildFirstURLClassLoader(Array(userJarUrl), currentLoader)

        } else {

          new MutableURLClassLoader(Array(userJarUrl), currentLoader)

        }

      Thread.currentThread.setContextClassLoader(loader)

      setupDependencies(loader, userJar)

      // Delegate to supplied main class

      val clazz = Utils.classForName(mainClass)

      val mainMethod = clazz.getMethod("main", classOf[Array[String]])

      mainMethod.invoke(null, extraArgs.toArray[String])

      rpcEnv.shutdown()

    case _ =>

      // scalastyle:off println

      System.err.println("Usage: DriverWrapper <workerUrl> <userJar> <driverMainClass> [options]")

      // scalastyle:on println

      System.exit(-1)

  }

}

Spark-源码分析01-Luanch Driver的更多相关文章

Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark源码分析（三）-TaskScheduler创建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函 ...
【转】Spark源码分析之-deploy模块
原文地址:http://jerryshao.me/architecture/2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B- ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或dis ...
Spark源码分析 – SchedulerBackend
SchedulerBackend, 两个任务, 申请资源和task执行和管理对于SparkDeploySchedulerBackend, 基于actor模式, 主要就是启动和管理两个actor De ...
Spark源码分析 – Deploy
参考, Spark源码分析之-deploy模块 Client Client在SparkDeploySchedulerBackend被start的时候, 被创建, 代表一个application和s ...
Spark源码分析 – SparkContext
Spark源码分析之-scheduler模块这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多这里自己再梳理一遍先看一个简单的spark操作, val sc = new SparkC ...
Spark源码分析之七：Task运行（一）
在Task调度相关的两篇文章<Spark源码分析之五:Task调度(一)>与<Spark源码分析之六:Task调度(二)>中,我们大致了解了Task调度相关的主要逻辑,并且在T ...
Spark源码分析之五：Task调度（一）
在前四篇博文中,我们分析了Job提交运行总流程的第一阶段Stage划分与提交,它又被细化为三个分阶段: 1.Job的调度模型与运行反馈: 2.Stage划分: 3.Stage提交:对应TaskSet的 ...

随机推荐

POJ 1321 棋盘问题（C）回溯
Emmm,我又来 POJ 了,这题感觉比上次做的简单点.类似皇后问题.但是稍微做了一点变形,比如棋子数量是不定的.棋盘形状不在是方形等等. 题目链接:POJ 1321 棋盘问题解题思路基本思路:从 ...
leetcode动态规划笔记一---一维DP
动态规划刷题方法告别动态规划,连刷 40 道题,我总结了这些套路,看不懂你打我 - 知乎北美算法面试的题目分类,按类型和规律刷题题目分类一维dp House Robber : 求最大最小值 ...
appium 方法整理
1.contexts contexts(self): Returns the contexts within the current session. 返回当前会话中的上下文,使用后可 ...
phpdocmentor 生成php 开发文档(转载)
PHPDocumentor是一个用PHP写的工具,对于有规范注释的php程序,它能够快速生成具有相互参照,索引等功能的API文档.老的版本是phpdoc,从1.3.0开始,更名为phpDocument ...
Sonatype安装
https://www.cnblogs.com/wotoufahaiduo/p/11223834.html Sonatype Nexus Repository Manage admin ccf0cab ...
JavaScript之控制表单元素的值
表单元素.value 获取表单元素的值表单元素.value='这是修改后的值' 修改表单元素的值案例: (1)html <input type="text" id=&qu ...
postman 在pre-request中发送application/x-www-form-urlencoded 格式表单
postman中在pre-request 发送请求知识点: json数据解析和遍历 application/x-www-form-urlencoded表单 Array基本使用 js函数 http请求 ...
阿里播放器踩坑记录进度条重构 video loadByUrl失效解决方案
如果本文对你有用,请爱心点个赞,提高排名,帮助更多的人.谢谢大家!❤ 如果解决不了,可以在文末进群交流. 文档地址:https://player.alicdn.com/aliplayer/index. ...
为什么说pt-osc可能会引起主从延迟，有什么好办法解决或规避吗？
若复制中binlog使用row格式,对大表使用pt-osc把数据从旧表拷贝到临时表,期间会产生大量的binlog,从而导致延时 pt-osc在搬数据过程中insert...select是有行锁的,会降 ...
异常详细信息: System.MissingMethodException: 无法创建抽象类。
asp.net mvc 在使用post向后端传送json数据时报异常,在路由配置中添加如下即可 public static void RegisterRoutes(RouteCollection ro ...

Spark-源码分析01-Luanch Driver

Spark-源码分析01-Luanch Driver的更多相关文章

随机推荐

热门专题