Spark源码分析

SparkEnv在两个地方会被创建, 由于SparkEnv中包含了很多重要的模块, 比如BlockManager, 所以SparkEnv很重要
Driver端, 在SparkContext初始化的时候, SparkEnv会被创建

  // Create the Spark execution environment (cache, map output tracker, etc)

  private[spark] val env = SparkEnv.createFromSystemProperties(

    "<driver>",  // 表示是driver, 下面的executor则是executorid

    System.getProperty("spark.driver.host"),

    System.getProperty("spark.driver.port").toInt,

    true,

    isLocal)

  SparkEnv.set(env)

Executor端, 在executor初始化时被创建

  // Initialize Spark environment (using system properties read above)

  val env = SparkEnv.createFromSystemProperties(executorId, slaveHostname, 0, false, false)

  SparkEnv.set(env)

SparkEnv Class

用于hold所有Spark运行时的环境对象, serializer, Akka actor system, block manager, and map output tracker等

/**

 * Holds all the runtime environment objects for a running Spark instance (either master or worker),

 * including the serializer, Akka actor system, block manager, map output tracker, etc. Currently

 * Spark code finds the SparkEnv through a thread-local variable, so each thread that accesses these

 * objects needs to have the right SparkEnv set. You can get the current environment with

 * SparkEnv.get (e.g. after creating a SparkContext) and set it with SparkEnv.set.

 */

class SparkEnv (

    val executorId: String,

    val actorSystem: ActorSystem,

    val serializerManager: SerializerManager,

    val serializer: Serializer,

    val closureSerializer: Serializer,

    val cacheManager: CacheManager,

    val mapOutputTracker: MapOutputTracker,

    val shuffleFetcher: ShuffleFetcher,

    val broadcastManager: BroadcastManager,

    val blockManager: BlockManager,

    val connectionManager: ConnectionManager,

    val httpFileServer: HttpFileServer,

    val sparkFilesDir: String,

    val metricsSystem: MetricsSystem) {

}

SparkEnv Object

scala使用伴生object当作类接口

除了基本的get和set

就是在createFromSystemProperties中创建了一堆很关键的对象

object SparkEnv extends Logging {

  private val env = new ThreadLocal[SparkEnv] // ThreadLocal,所以每个线程各访问各的

  @volatile private var lastSetSparkEnv : SparkEnv = _ // 缓存最新更新的SparkEnv,并且volatile,便于其他线程获得

  def set(e: SparkEnv) {

    lastSetSparkEnv = e

    env.set(e)

  }

  /**

   * Returns the ThreadLocal SparkEnv, if non-null. Else returns the SparkEnv

   * previously set in any thread.

   */

  def get: SparkEnv = {

    Option(env.get()).getOrElse(lastSetSparkEnv) // 没有local时, 可以用lastSetSparkEnv

  }

  /**

   * Returns the ThreadLocal SparkEnv.

   */

  def getThreadLocal : SparkEnv = {

    env.get() // 只取到local的

  }

  def createFromSystemProperties(

      executorId: String,

      hostname: String,

      port: Int,

      isDriver: Boolean,

      isLocal: Boolean): SparkEnv = {

    val (actorSystem, boundPort) = AkkaUtils.createActorSystem("spark", hostname, port)

    val classLoader = Thread.currentThread.getContextClassLoader

    // Create an instance of the class named by the given Java system property, or by

    // defaultClassName if the property is not set, and return it as a T

    def instantiateClass[T](propertyName: String, defaultClassName: String): T = {

      val name = System.getProperty(propertyName, defaultClassName)

      Class.forName(name, true, classLoader).newInstance().asInstanceOf[T]

    }

    val serializerManager = new SerializerManager

    val serializer = serializerManager.setDefault(

      System.getProperty("spark.serializer", "org.apache.spark.serializer.JavaSerializer"))

    val closureSerializer = serializerManager.get(

      System.getProperty("spark.closure.serializer", "org.apache.spark.serializer.JavaSerializer"))

    val connectionManager = blockManager.connectionManager

    val broadcastManager = new BroadcastManager(isDriver)

    val cacheManager = new CacheManager(blockManager)

    // BlockManager

    val blockManagerMaster = new BlockManagerMaster(registerOrLookup( // registerOrLookup表示只有在master上创建Actor对象, slave上只是创建ref

      "BlockManagerMaster",

      new BlockManagerMasterActor(isLocal)))

    val blockManager = new BlockManager(executorId, actorSystem, blockManagerMaster, serializer)

    // MapOutputTracker

    val mapOutputTracker = new MapOutputTracker()

    mapOutputTracker.trackerActor = registerOrLookup( // 同样只有在master创建actor对象

      "MapOutputTracker",

      new MapOutputTrackerActor(mapOutputTracker))

    // ShuffleFetcher

    val shuffleFetcher = instantiateClass[ShuffleFetcher](

      "spark.shuffle.fetcher", "org.apache.spark.BlockStoreShuffleFetcher")

    val httpFileServer = new HttpFileServer()

    httpFileServer.initialize()

    System.setProperty("spark.fileserver.uri", httpFileServer.serverUri)

    val metricsSystem = if (isDriver) {

      MetricsSystem.createMetricsSystem("driver")

    } else {

      MetricsSystem.createMetricsSystem("executor")

    }

    metricsSystem.start()

    new SparkEnv(

      executorId,

      actorSystem,

      serializerManager,

      serializer,

      closureSerializer,

      cacheManager,

      mapOutputTracker,

      shuffleFetcher,

      broadcastManager,

      blockManager,

      connectionManager,

      httpFileServer,

      sparkFilesDir,

      metricsSystem)

  }

}

Spark源码分析 – SparkEnv的更多相关文章

Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
Spark源码分析之Spark-submit和Spark-class
有了前面spark-shell的经验,看这两个脚本就容易多啦.前面总结的Spark-shell的分析可以参考: Spark源码分析之Spark Shell(上) Spark源码分析之Spark She ...
Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
Spark源码分析 – Shuffle
参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memo ...
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或dis ...
Spark源码分析 -- TaskScheduler
Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案现在支持, LocalSheduler, ClusterSched ...
Spark源码分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Threa ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...

随机推荐

php读取csv的问题
csv文件要用utf-8 无bom格式保存如果有英文外的字符,另外每项要用双引号,不用双引号不能保存非英文字符
BlueZ--内核层+应用层
BlueZ 1.Kernel层实现: bluetooth协议栈有多层结构,最底层的硬件协议在硬件中就已经实现了.软件级别的协议实现,从HCI这一层开始实现. BlueZ对各层协议的实现是依托于Sock ...
RabbitMQ之路由（Routing）【译】
在上一节中,我们创建了一个简单的日志系统,可以广播消息到很多接收者. 这一节,我们将在上一节的基础上加一个功能--订阅部分消息.例如,我们只将严重错误信息写入到日志文件保存在磁盘上,同时我们能将所有的 ...
Python之修改文件MD5值
import os def fileAppend(filename): myfile = open(filename,'a') myfile.write("####&&&am ...
【转】【Linux】Linux 下zip包的压缩与解压
linux zip 命令详解功能说明:压缩文件. 语法:zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串& ...
Spring Cloud是一系列框架的有序集合
Spring Cloud是一系列框架的有序集合.它利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册.配置中心.消息总线.负载均衡.断路器.数据监控等,都可以用 ...
在函数体的“出口处”，对 return 语句的正确性和效率进行检查
在函数体的“出口处”,对 return 语句的正确性和效率进行检查. 如果函数有返回值,那么函数的“出口处”是 return 语句. 我们不要轻视 return 语句.如果 return 语句写得不 ...
php -- session会话
PHP Sessions PHP session 变量用于存储关于用户会话(session)的信息,或者更改用户会话(session)的设置.Session 变量存储单一用户的信息,并且对于应用程序中 ...
WPF DataGrid DataGridTemplateColumn 控制模板中控件
<DataGrid Name="DG"> <DataGrid.Columns> < ...
jQuery 插件开发指南
jQuery凭借其简洁的API,对DOM强大的操控性,易扩展性越来越受到web开发人员的喜爱,经常有人询问一些技巧,因此干脆写这么一篇文章给各位jQuery爱好者,算是抛砖引玉吧. 那么首先我们来简单 ...

Spark源码分析 – SparkEnv

SparkEnv Class

SparkEnv Object

Spark源码分析 – SparkEnv的更多相关文章

随机推荐

热门专题