[Apache Spark源代码阅读]天堂之门—

略微了解Spark源代码的人应该都知道SparkContext，作为整个Project的程序入口，其重要性不言而喻，很多大牛也在源代码分析的文章中对其做了非常多相关的深入分析和解读。这里，结合自己前段时间的阅读体会，与大家共同讨论学习一下Spark的入口对象—天堂之门—SparkContex。

SparkContex位于项目的源代码路径\spark-master\core\src\main\scala\org\apache\spark\SparkContext.scala中，源文件包括SparkContextClasss声明和其伴生对象SparkContextObject。而之所以将SparkContext称为整个程序的入口，原因在于，无论我们是从本地还是HDFS读取文件，总要首先创建一个SparkContext对象，然后基于这个SC对象，展开兴许的RDD对象创建、转换等操作。

在创建SparkContex对象的过程中，进行了一系列的初始化操作，主要包含下面内容：

加载配置文件SparkConf
创建SparkEnv
创建TaskScheduler
创建DAGScheduler

1、加载配置文件SparkConf

在SparkConf初始化时，会将相关的配置參数传递给SparkContex，包含master、appName、sparkHome、jars、environment等信息，这里的构造函数有多中表达形式，但最归初始化的结果都是殊途同归，SparkContex获取了全部相关的本地配置和执行时配置信息。

def this(master: String, appName: String, conf: SparkConf) =

    this(SparkContext.updatedConf(conf, master, appName))

def this(

      master: String,

      appName: String,

      sparkHome: String = null,

      jars: Seq[String] = Nil,

      environment: Map[String, String] = Map(),

      preferredNodeLocationData: Map[String, Set[SplitInfo]] = Map()) =

  {

    this(SparkContext.updatedConf(new SparkConf(), master, appName, sparkHome, jars, environment))

    this.preferredNodeLocationData = preferredNodeLocationData

  }

2、创建SparkEnv

SparkEnv是一个很重要的变量，其内包括了很多Spark执行时的重要组件（变量），包括 MapOutputTracker、ShuffleFetcher、BlockManager等，这里是通过SparkEnv类的伴生对象SparkEnv Object内的Create方法实现的。

private[spark] val env = SparkEnv.create(

    conf,

    "<driver>",

    conf.get("spark.driver.host"),

    conf.get("spark.driver.port").toInt,

    isDriver = true,

    isLocal = isLocal,

    listenerBus = listenerBus)

  SparkEnv.set(env)

3、创建TaskScheduler和DAGScheduler

以下这段代码很重要，它初始化了SparkContex里两个很关键的变量，TaskScheduler和DAGScheduler。

private[spark] var taskScheduler = SparkContext.createTaskScheduler(this, master)

  @volatile private[spark] var dagScheduler: DAGScheduler = _

  try {

    dagScheduler = new DAGScheduler(this)

  } catch {

    case e: Exception => throw

      new SparkException("DAGScheduler cannot be initialized due to %s".format(e.getMessage))

  }

  // start TaskScheduler after taskScheduler sets DAGScheduler reference in DAGScheduler's

  // constructor

  taskScheduler.start()

首先，TaskScheduler是依据Spark的执行模式进行初始化的，详细代码在SparkContext中的createTaskScheduler方法中。以Standalone模式为例，它会将sc传递给TaskSchedulerImpl，并在返回Scheduler对象之前，创建SparkDeploySchedulerBackend，并将其初始化，最后返回Scheduler对象。

case SPARK_REGEX(sparkUrl) =>

        val scheduler = new TaskSchedulerImpl(sc)

        val masterUrls = sparkUrl.split(",").map("spark://" + _)

        val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls)

        scheduler.initialize(backend)

        scheduler

创建TaskScheduler对象后，再将TaskScheduler对象传參至DAGScheduler，用来创建DAGScheduler对象，

def this(sc: SparkContext, taskScheduler: TaskScheduler) = {

    this(

      sc,

      taskScheduler,

      sc.listenerBus,

      sc.env.mapOutputTracker.asInstanceOf[MapOutputTrackerMaster],

      sc.env.blockManager.master,

      sc.env)

  }

之后，再调用其start()方法将其启动，当中包含SchedulerBackend的启动。

override def start() {

    backend.start()

    if (!isLocal && conf.getBoolean("spark.speculation", false)) {

      logInfo("Starting speculative execution thread")

      import sc.env.actorSystem.dispatcher

      sc.env.actorSystem.scheduler.schedule(SPECULATION_INTERVAL milliseconds,

            SPECULATION_INTERVAL milliseconds) {

        Utils.tryOrExit { checkSpeculatableTasks() }

      }

    }

  }

除此之外，SparkContex还包含一些重要的函数方法，比如

1、runjob

runjob是spark中全部任务提交的入口，诸如rdd中的一些常见操作和变换，都会调用SparkContex的runjob方法，提交任务。

def runJob[T, U: ClassTag](

      rdd: RDD[T],

      func: (TaskContext, Iterator[T]) => U,

      partitions: Seq[Int],

      allowLocal: Boolean,

      resultHandler: (Int, U) => Unit) {

    if (dagScheduler == null) {

      throw new SparkException("SparkContext has been shutdown")

    }

    val callSite = getCallSite

    val cleanedFunc = clean(func)

    logInfo("Starting job: " + callSite)

    val start = System.nanoTime

    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,

      resultHandler, localProperties.get)

    logInfo("Job finished: " + callSite + ", took " + (System.nanoTime - start) / 1e9 + " s")

    rdd.doCheckpoint()

  }

2、textFile

从HDFS路径读取单个数据文件，首先创建HadoopRDD，通过map操作，返回RDD对象。

3、wholeTextFiles

从HDFS某个目录读取多个文件。

4、parallelize

读取本地文件，并转换为RDD。

[Apache Spark源代码阅读]天堂之门——SparkContext解析的更多相关文章

Spark源代码阅读笔记之DiskStore
Spark源代码阅读笔记之DiskStore BlockManager底层通过BlockStore来对数据进行实际的存储.BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持 ...
Spark修炼之道（高级篇）——Spark源代码阅读：第十二节 Spark SQL 处理流程分析
作者:周志湖以下的代码演示了通过Case Class进行表Schema定义的样例: // sc is an existing SparkContext. val sqlContext = new o ...
Spark源代码阅读笔记之MetadataCleaner
MetadataCleaner执行定时任务周期性的清理元数据(metadata),有6种类型的元数据:MAP_OUTPUT_TRACKER.executor跟踪各个map任务输出的存储位置的数据,依据 ...
Apache Spark源码走读之11 -- sql的解析与执行
欢迎转载,转载请注明出处,徽沪一郎. 概要在即将发布的spark 1.0中有一个新增的功能,即对sql的支持,也就是说可以用sql来对数据进行查询,这对于DBA来说无疑是一大福音,因为以前的知识继续 ...
ERROR actor.OneForOneStrategy: org.apache.spark.SparkContext
今天在用Spark把Kafka的数据往ES写的时候,代码一直报错,错误信息如下: 15/10/20 17:28:56 ERROR actor.OneForOneStrategy: org.apache ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
《Apache Spark源码剖析》
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面.系统地介绍了 ...
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...

随机推荐

POJ 2676/2918 数独（dfs）
思路:记录每行每列每一个宫已经出现的数字就可以.数据比較弱另外POJ 3074 3076 必须用剪枝策略.但实现较麻烦,还是以后学了DLX再来做吧 //Accepted 160K 0MS #incl ...
使用AndroidFrameworks开发和应用隐藏类 or Android使用自定义framework开发与应用
Android眼下代表系统的开源手机操作系统已经更新到4.0.3版本号.由于其开源特性.使得操作系统本身所具有的最大的灵活性,但同时也引起的版本号的多样性,市场上出现的是手机厂商或ROM.可是怎样开发 ...
Unobtrusive Ajax
ASP.NET MVC之Unobtrusive Ajax(五) 前言这一节我们来讲讲Unobtrusive中的Ajax提交,大部分情况下我们是利用JQuery来进行Ajax请求,当然利用JQue ...
The Django template language 阅读批注
The Django template language About this document This document explains the language syntax of the D ...
spring 普通类获取四大作用域request、applicationContext、session、page
几乎所有web应用容器都提供了四种类似Map的结构:application session request page,Jsp或者Servlet通过向着这四个对象放入数据,从而实现Jsp和Servlet ...
Learning Cocos2d-x for WP8（3）——文字篇
原文:Learning Cocos2d-x for WP8(3)--文字篇 C#兄弟篇Learning Cocos2d-x for XNA(3)——文字篇文字,是人类文明的象征. 文字显示,可用字符 ...
分布式消息系统Jafka入门指南之二
分布式消息系统Jafka入门指南之二作者:chszs,转载需注明.博客主页:http://blog.csdn.net/chszs 三.Jafka的文件夹结构 1.安装tree命令 $ sudo yu ...
安装dotnet core
CentOS 7.1下安装dotnet core .NET CORE的官方(http://dotnet.github.io/getting-started/)只提供了Windows, Ubuntu14 ...
Android系统各版本号及代号
Android系统各版本号及代号版本版本号代号公布日期 API Android 1.0 阿童木 1 Android 1.1 发条机器人 2008.9 2 Android 1.5 纸杯蛋糕 200 ...
基于VLC的视频播放器
原文:基于VLC的视频播放器最近在研究视频播放的功能,之前是使用VideoView.在网上看了一下,感觉不是很好,支持的格式比较少,现在网络视频的格式各种各样,感觉用VideoView播放起来局限性 ...

[Apache Spark源代码阅读]天堂之门——SparkContext解析

[Apache Spark源代码阅读]天堂之门——SparkContext解析的更多相关文章

随机推荐

热门专题