Spark源码分析

SparkEnv在两个地方会被创建, 由于SparkEnv中包含了很多重要的模块, 比如BlockManager, 所以SparkEnv很重要
Driver端, 在SparkContext初始化的时候, SparkEnv会被创建

  // Create the Spark execution environment (cache, map output tracker, etc)

  private[spark] val env = SparkEnv.createFromSystemProperties(

    "<driver>",  // 表示是driver, 下面的executor则是executorid

    System.getProperty("spark.driver.host"),

    System.getProperty("spark.driver.port").toInt,

    true,

    isLocal)

  SparkEnv.set(env)

Executor端, 在executor初始化时被创建

  // Initialize Spark environment (using system properties read above)

  val env = SparkEnv.createFromSystemProperties(executorId, slaveHostname, 0, false, false)

  SparkEnv.set(env)

SparkEnv Class

用于hold所有Spark运行时的环境对象, serializer, Akka actor system, block manager, and map output tracker等

/**

 * Holds all the runtime environment objects for a running Spark instance (either master or worker),

 * including the serializer, Akka actor system, block manager, map output tracker, etc. Currently

 * Spark code finds the SparkEnv through a thread-local variable, so each thread that accesses these

 * objects needs to have the right SparkEnv set. You can get the current environment with

 * SparkEnv.get (e.g. after creating a SparkContext) and set it with SparkEnv.set.

 */

class SparkEnv (

    val executorId: String,

    val actorSystem: ActorSystem,

    val serializerManager: SerializerManager,

    val serializer: Serializer,

    val closureSerializer: Serializer,

    val cacheManager: CacheManager,

    val mapOutputTracker: MapOutputTracker,

    val shuffleFetcher: ShuffleFetcher,

    val broadcastManager: BroadcastManager,

    val blockManager: BlockManager,

    val connectionManager: ConnectionManager,

    val httpFileServer: HttpFileServer,

    val sparkFilesDir: String,

    val metricsSystem: MetricsSystem) {

}

SparkEnv Object

scala使用伴生object当作类接口

除了基本的get和set

就是在createFromSystemProperties中创建了一堆很关键的对象

object SparkEnv extends Logging {

  private val env = new ThreadLocal[SparkEnv] // ThreadLocal,所以每个线程各访问各的

  @volatile private var lastSetSparkEnv : SparkEnv = _ // 缓存最新更新的SparkEnv,并且volatile,便于其他线程获得

  def set(e: SparkEnv) {

    lastSetSparkEnv = e

    env.set(e)

  }

  /**

   * Returns the ThreadLocal SparkEnv, if non-null. Else returns the SparkEnv

   * previously set in any thread.

   */

  def get: SparkEnv = {

    Option(env.get()).getOrElse(lastSetSparkEnv) // 没有local时, 可以用lastSetSparkEnv

  }

  /**

   * Returns the ThreadLocal SparkEnv.

   */

  def getThreadLocal : SparkEnv = {

    env.get() // 只取到local的

  }

  def createFromSystemProperties(

      executorId: String,

      hostname: String,

      port: Int,

      isDriver: Boolean,

      isLocal: Boolean): SparkEnv = {

    val (actorSystem, boundPort) = AkkaUtils.createActorSystem("spark", hostname, port)

    val classLoader = Thread.currentThread.getContextClassLoader

    // Create an instance of the class named by the given Java system property, or by

    // defaultClassName if the property is not set, and return it as a T

    def instantiateClass[T](propertyName: String, defaultClassName: String): T = {

      val name = System.getProperty(propertyName, defaultClassName)

      Class.forName(name, true, classLoader).newInstance().asInstanceOf[T]

    }

    val serializerManager = new SerializerManager

    val serializer = serializerManager.setDefault(

      System.getProperty("spark.serializer", "org.apache.spark.serializer.JavaSerializer"))

    val closureSerializer = serializerManager.get(

      System.getProperty("spark.closure.serializer", "org.apache.spark.serializer.JavaSerializer"))

    val connectionManager = blockManager.connectionManager

    val broadcastManager = new BroadcastManager(isDriver)

    val cacheManager = new CacheManager(blockManager)

    // BlockManager

    val blockManagerMaster = new BlockManagerMaster(registerOrLookup( // registerOrLookup表示只有在master上创建Actor对象, slave上只是创建ref

      "BlockManagerMaster",

      new BlockManagerMasterActor(isLocal)))

    val blockManager = new BlockManager(executorId, actorSystem, blockManagerMaster, serializer)

    // MapOutputTracker

    val mapOutputTracker = new MapOutputTracker()

    mapOutputTracker.trackerActor = registerOrLookup( // 同样只有在master创建actor对象

      "MapOutputTracker",

      new MapOutputTrackerActor(mapOutputTracker))

    // ShuffleFetcher

    val shuffleFetcher = instantiateClass[ShuffleFetcher](

      "spark.shuffle.fetcher", "org.apache.spark.BlockStoreShuffleFetcher")

    val httpFileServer = new HttpFileServer()

    httpFileServer.initialize()

    System.setProperty("spark.fileserver.uri", httpFileServer.serverUri)

    val metricsSystem = if (isDriver) {

      MetricsSystem.createMetricsSystem("driver")

    } else {

      MetricsSystem.createMetricsSystem("executor")

    }

    metricsSystem.start()

    new SparkEnv(

      executorId,

      actorSystem,

      serializerManager,

      serializer,

      closureSerializer,

      cacheManager,

      mapOutputTracker,

      shuffleFetcher,

      broadcastManager,

      blockManager,

      connectionManager,

      httpFileServer,

      sparkFilesDir,

      metricsSystem)

  }

}

Spark源码分析 – SparkEnv的更多相关文章

Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
Spark源码分析之Spark-submit和Spark-class
有了前面spark-shell的经验,看这两个脚本就容易多啦.前面总结的Spark-shell的分析可以参考: Spark源码分析之Spark Shell(上) Spark源码分析之Spark She ...
Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
Spark源码分析 – Shuffle
参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memo ...
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或dis ...
Spark源码分析 -- TaskScheduler
Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案现在支持, LocalSheduler, ClusterSched ...
Spark源码分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Threa ...
Spark源码分析之九：内存管理模型
Spark是现在很流行的一个基于内存的分布式计算框架,既然是基于内存,那么自然而然的,内存的管理就是Spark存储管理的重中之重了.那么,Spark究竟采用什么样的内存管理模型呢?本文就为大家揭开Sp ...

随机推荐

python内置函数之dict()
class dict(**kwargs) 返回一个字典.本方法用来创建一个字典对象.只能传入一个参数. >>> dict(a=1) {'a': 1} 也可以传入映射函数作为参数 &g ...
C++中类所占的存储空间
#include <iostream> using namespace std; class A { int m_a; int get() { return m_a; } virtual ...
SenCha Touch HTML 5 应用程序缓存
http://www.cnblogs.com/qidian10/p/3292876.html https://developer.mozilla.org/zh-CN/docs/HTML/Using_t ...
AtomicReference与volatile的区别
首先volatile是java中关键字用于修饰变量,AtomicReference是并发包java.util.concurrent.atomic下的类.首先volatile作用,当一个变量被定义为vo ...
Oracle拉出在sqlserver建表的语句
我们将Oracle数据同步到sqlserver时,是先得在sqlserver端建表的. 复杂的字段我们不同步,就仅仅考虑以下四种数据类型. Oracle到SQLServer做的映射: int -> ...
MyBatis学习4---使用MyBatis_Generator生成Dto、Dao、Mapping
由于MyBatis属于一种半自动的ORM框架,所以主要的工作将是书写Mapping映射文件,但是由于手写映射文件很容易出错,所以查资料发现有现成的工具可以自动生成底层模型类.Dao接口类甚至Mappi ...
request Dispatch
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletExcepti ...
iOS自动化测试需求实现（iOS按键精灵类似）
需求分析: 作为以需求为驱动的IT公司,有再奇怪的需求都不奇怪,所以“24小时循测第三方应用”这样的需求也可以接受.业务需求重点为: 1.24小时循测 2.无人值守,自动完成 3.自动界面操作(点击. ...
Mock利器：PowerMock
powerMock不仅支持接口mock,final类.静态类.静态方法.私有方法都支持mock,还是很强大的: 1.gradle引用: myonlycompile('org.powermock:pow ...
python3.4 百度API接口
# -*- coding: utf-8 -*- import urllib.request, json url = 'http://apis.baidu.com/netpopo/illegaladdr ...

Spark源码分析 – SparkEnv

SparkEnv Class

SparkEnv Object

Spark源码分析 – SparkEnv的更多相关文章

随机推荐

热门专题