2.1.4、SparkEnv中创建BroadcastManager

Broadcast是分布式的数据共享，由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构

通过SparkContext.broadcast广播一个Broadcast, 实际调用的是SparkEnv的BroadManager来创建

  /**

   * Broadcast a read-only variable to the cluster, returning a

   * [[org.apache.spark.broadcast.Broadcast]] object for reading it in distributed functions.

   * The variable will be sent to each cluster only once.

   */

  def broadcast[T: ClassTag](value: T): Broadcast[T] = {

    assertNotStopped()

    require(!classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass),

      "Can not directly broadcast RDDs; instead, call collect() and broadcast the result.")

    //使用SparkEnv.broadcastManager创建Broadcast

    val bc = env.broadcastManager.newBroadcast[T](value, isLocal)

    val callSite = getCallSite

    logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)

    cleaner.foreach(_.registerBroadcastForCleanup(bc))

    bc

  }

在SparkEnv中创建BroadcastManager，

// 此处只是声明， 只有调用initialize， 才会生效
val broadcastManager = new BroadcastManager(isDriver, conf, securityManager)

initialize()

  // Called by SparkContext or Executor before using Broadcast

  private def initialize() {

    synchronized {

      if (!initialized) {

        broadcastFactory = new TorrentBroadcastFactory

        broadcastFactory.initialize(isDriver, conf, securityManager)

        initialized = true

      }

    }

  }

BoradcastManager操作BradCast实际是代理BroadcastFactory, 此处使用工长模式

  def stop() {

    broadcastFactory.stop()

  }

  private val nextBroadcastId = new AtomicLong(0)

  def newBroadcast[T: ClassTag](value_ : T, isLocal: Boolean): Broadcast[T] = {

    broadcastFactory.newBroadcast[T](value_, isLocal, nextBroadcastId.getAndIncrement())

  }

  def unbroadcast(id: Long, removeFromDriver: Boolean, blocking: Boolean) {

    broadcastFactory.unbroadcast(id, removeFromDriver, blocking)

  }

2.1.4、SparkEnv中创建BroadcastManager的更多相关文章

2.1.5、SparkEnv中创建MapOutputTracker
SparkEnv中创建MapOutputTracker def registerOrLookupEndpoint( name: String, endpointCreator: => RpcEn ...
2.1.6、SparkEnv中创建ShuffleManager
ShuffleManager负责管理本地以及远程的block数据的shuffle操作. ShffuleManager的创建是在SparkEnv中. // Let the user specify sh ...
In-Memory：在内存中创建临时表和表变量
在Disk-Base数据库中,由于临时表和表变量的数据存储在tempdb中,如果系统频繁地创建和更新临时表和表变量,大量的IO操作集中在tempdb中,tempdb很可能成为系统性能的瓶颈.在SQL ...
【初学者指南】在ASP.NET MVC 5中创建GridView
介绍在这篇文章中,我们将会学习如何在 ASP.NET MVC 中创建一个 gridview,就像 ASP.NET Web 表单中的 gridview 一样.服务器端和客户端有许多可用的第三方库,这些 ...
SQL Server 在多个数据库中创建同一个存储过程（Create Same Stored Procedure in All Databases）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 遇到的问题(Problems) 实现代码(SQL Codes) 方法一:拼接SQL: 方法二: ...
SAP CRM 在Web UI中创建搜索帮助
多数情况下,在Web UI为一个特定的字段提供搜索帮助需要在事务SE11中创建搜索帮助. (注:也可以通过在SE24中创建一个类并实现实现IF_BSP_WD_CUSTOM_F4_CALLBACK接口来 ...
详解Linux交互式shell脚本中创建对话框实例教程_linux服务器
本教程我们通过实现来讲讲Linux交互式shell脚本中创建各种各样对话框,对话框在Linux中可以友好的提示操作者,感兴趣的朋友可以参考学习一下. 当你在终端环境下安装新的软件时,你可以经常看到信息 ...
如何在ARM中创建Express Route
很早之前就想试试Azure的express route,但是一直没有找到合适的机会,正好有个客户需要上express route,所以最近先自己研究研究,防止在做poc的时候耗费更多时间,本次场景我们 ...
在powerdesigner中创建物理数据模型
物理数据模型(PDM)是以常用的DBMS(数据库管理系统)理论为基础,将CDM/LDM中所建立的现实世界模型生成相应的DBMS的SQL语言脚本.PDM叙述数据库的物理实现,是对真实数据库的描述 PDM ...

随机推荐

bzoj 2093 [ Poi 2010 ] Frog —— 滑动窗口 + 倍增
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=2093 先处理出每个点第一次会跳到哪里: 开一个长度为 K+1 的窗口(因为第一近的实际是自己 ...
ZOJ2334 Monkey King 左偏树
ZOJ2334 用左偏树实现优先队列最大的好处就是两个队列合并可以在Logn时间内完成用来维护优先队列森林非常好用. 左偏树代码的核心也是两棵树的合并! 代码有些细节需要注意. #include&l ...
atcoder 076
日本人的比赛 C:如果两个数差了大于1无解,否则分类讨论 #include<bits/stdc++.h> using namespace std; typedef long long ll ...
PL/SQL编程基础
1. PL/SQL块的基础结构 DECLARE /* * 定义部分——定义常量.变量.复杂数据类型.游标.用户自定义异常 */ BEGIN /* * 执行部分——PL/SQL语句和SQL语句 */ E ...
【转载】[Oracle] Linux下手动创建数据库过程
今天发现一个Oracle测试库的字符集设置不正确,原本的字符集是UTF-8,正确的字符集应该是ZHS16GBK,因为UTF-8是ZHS16GBK的超集,无法修改,只能重建数据库,幸好该测试库上还没有数 ...
codevs1574广义斐波那契数列
1574 广义斐波那契数列时间限制: 1 s 空间限制: 256000 KB 题目等级 : 钻石 Diamond 题目描述 Description 广义的斐波那契数列是指形如an=p* ...
使用 typescript 开发 Vue
基础配置: 1. 准备一个使用 vue-cli 生成的项目 2. 使用 npm 一建安装基础配置 npm i -S @types/node typescript vue-class-component ...
爬虫—Ajax数据爬取
一.什么是Ajax 有时候我们使用浏览器查看页面正常显示的数据与使用requests抓取页面得到的数据不一致,这是因为requests获取的是原始的HTML文档,而浏览器中的页面是经过JavaScri ...
JavaScript--如何插入JS
我们来看看如何写入JS代码?你只需一步操作,使用<script>标签在HTML网页中插入JavaScript代码.注意, <script>标签要成对出现,并把JavaScrip ...
ubuntu上Hadoop三种运行模式的部署
Hadoop集群支持三种运行模式:单机模式.伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合 ...

2.1.4、SparkEnv中创建BroadcastManager

2.1.4、SparkEnv中创建BroadcastManager的更多相关文章

随机推荐

热门专题