以wordcount为示例进行深入分析

33  ) {
46        logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
47        stage.pendingTasks ++= tasks
48        logDebug("New pending tasks: " + stage.pendingTasks)
49        // 对stage的task创建TaskSet对象,调用TaskScheduler的submitTasks()方法提交TaskSet
50        taskScheduler.submitTasks(
51          new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))
52        stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
53      }
54      
55      ...................... 
56    }

 

getPreferredLocsInternal

功能:

计算每个task对应的partition最佳位置,从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint,如果有那么task的最佳位置就被cache或者checkpoint的partition的位置

调用过程:

submitMissingTasks->getPreferredLocs->getPreferredLocsInternal

// 计算每个task对应的partition最佳位置
  // 从stage的最后一个rdd开始查找,看rdd的partition是否有被cache、chencjpoint,
  // 如果有那么task的最佳位置就被cache或者checkpoint的partition的位置
  private def getPreferredLocsInternal(
      rdd: RDD[_],
      partition: Int,
      visited: HashSet[(RDD[_],Int)])
    : Seq[TaskLocation] =
  {
10      // If the partition has already been visited, no need to re-visit.
11      // This avoids exponential path exploration.  SPARK-695
12      if (!visited.add((rdd,partition))) {
13        // Nil has already been returned for previously visited partitions.
14        return Nil
15      }
16      // If the partition is cached, return the cache locations
17      // 寻找rdd是否被缓存
18      val cached = getCacheLocs(rdd)(partition)
19      if (!cached.isEmpty) {
20        return cached
21      }
22      // If the RDD has some placement preferences (as is the case for input RDDs), get those
23      // 寻找当前RDD是否被cachepoint
24      val rddPrefs = rdd.preferredLocations(rdd.partitions(partition)).toList
25      if (!rddPrefs.isEmpty) {
26        return rddPrefs.map(TaskLocation(_))
27      }
28      // If the RDD has narrow dependencies, pick the first partition of the first narrow dep
29      // that has any placement preferences. Ideally we would choose based on transfer sizes,
30      // but this will do for now.
31      // 递归调用自己寻找rdd的父rdd,检查对应的partition是否被缓存或者checkpoint
32      rdd.dependencies.foreach {
33        case n: NarrowDependency[_] =>
34          for (inPart <- n.getParents(partition)) {
35            val locs = getPreferredLocsInternal(n.rdd, inPart, visited)
36            if (locs != Nil) {
37              return locs
38            }
39          }
40        case _ =>
41      }
42      // 如果stage从最后一个rdd到最开始的rdd,partiton都没有被缓存或者cachepoint,
43      // 那么task的最佳位置(preferredLocs)为Nil
44      Nil
45    }

Spark系列(九)DAGScheduler工作原理的更多相关文章

  1. Spark系列(十)TaskSchedule工作原理

    工作原理图 源码分析: 1.) 25              launchedTask = true 26            } 27          } catch { 28         ...

  2. Spark系列(八)Worker工作原理

    工作原理图   源代码分析 包名:org.apache.spark.deploy.worker 启动driver入口点:registerWithMaster方法中的case LaunchDriver ...

  3. line-height系列——定义和工作原理总结

    一.line-height的定义和工作原理总结 line-height的属性值: normal    默认  设置合理的行间距. number  设置数字,此数字会与当前的字体尺寸相乘来设置行间距li ...

  4. MySQL系列(九)--InnoDB索引原理

    InnoDB在MySQL5.6版本后作为默认存储引擎,也是我们大部分场景要使用的,而InnoDB索引通过B+树实现,叫做B-tree索引.我们默认创建的 索引就是B-tree索引,所以理解B-tree ...

  5. 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

    周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...

  6. 49、Spark Streaming基本工作原理

    一.大数据实时计算介绍 1.概述 Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架.它的底层,其实,也是基于我们之前讲解的Spark Core的. 基本 ...

  7. “Ceph浅析”系列之五——Ceph的工作原理及流程

    本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍.如前所述,由于Ceph的功能实现本质上依托于RADOS,因而,此处的介绍事实上也是针对RADOS进行.对于上层的部分,特别是RADOS GW和 ...

  8. JSP JSP工作原理 JSP语法 JSP声明 JSP注释 JSP指令 jsp九大隐式/内置对象

    1 什么是JSP   1)为什么说,Servlet是一个动态Web开发技术呢?     Servlet是基于服务端的一种动态交互技术,     HttpServletRequest表示客户端到服务端的 ...

  9. 4.Apache Spark的工作原理

    Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...

随机推荐

  1. Java IDE 编辑器 --- IntelliJ IDEA 进阶篇 生成 hibernate 实体与映射文件

    原文:转:Java IDE 编辑器 --- IntelliJ IDEA 进阶篇 生成 hibernate 实体与映射文件 2011-04-30 12:50 很多人不知道怎么用 IntelliJ IDE ...

  2. ASP.NET获取路径的方法

    原文:[转载]ASP.NET获取路径的方法 HttpContext.Current.Request.PhysicalPath;    // 获得当前页面的完整物理路径.比如 F:\XFU.NSQS\p ...

  3. 一个不错的log4j.properties例子

    # Set root logger level to WARN and append to stdout #在开发环境下日志级别要设置成DEBUG,生产环境设置成info或error log4j.ro ...

  4. Linux Shell脚本入门:tee命令

    用途说明   在执行Linux命令时,我们可以把输出重定向到文件中,比如 ls >a.txt,这时我们就不能看到输出了,如果我们既想把输出保存到文件中,又想在屏幕上看到输出内容,就可以使用tee ...

  5. 转 Difference between WCF and Web API and WCF REST and Web Service

    http://www.dotnet-tricks.com/Tutorial/webapi/JI2X050413-Difference-between-WCF-and-Web-API-and-WCF-R ...

  6. AndroidJNI 调用JAVA(转)

    转自:http://www.cnblogs.com/likwo/archive/2012/05/21/2512400.html   1. JNIEnv对象    对于本地函数    JNIEXPORT ...

  7. Android Activity形象描述

    Activity就是形象的说就是一个容器,在里面放置各种控件(按钮,文本,复选框等),就形成了软件的界面~ Activity是可见的,如果不加任何控件的话,那么就像Windows中的空白窗体一样 通过 ...

  8. android中最先被执行的activity

    像C.C++.JAVA都有一个主函数作为程序的入口点,但是Android中并没有一个明确的主窗口,那么在有多个Activity的情况下,最先被执行的是哪个呢?这完全取决于配置文件AndroidMain ...

  9. uva 111 - History Grading (dp, LCS)

    题目链接 题意:给N,第二行是答案,n个数c1---cn, 代表第一个的顺序是c1,第二个数顺序是c2; 下面每一行是学生的答案,格式同上. 注意:这个给的顺序需要处理一下,不能直接用. 思路:LCS ...

  10. uva1262Password

    解码,暴力. 恬不知耻地把暴力题解放了上来,因为k比较小,直接暴力找到字符串第k大就可以了. 编码解码就是根据组合数学公式算出来它到底在哪. dfs返回bool就能使得找到字典序第k大字符串以后退出d ...