Spark 学习笔记之共享变量

共享变量:

共享变量
通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有限类型的共享变量，广播变量和累加器。

广播变量
广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。

import org.apache.spark.SparkContext

import org.apache.spark.broadcast.Broadcast

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

import org.apache.spark.util.LongAccumulator

object TransformationsDemo {

  def main(args: Array[String]): Unit = {

    val sparkSession = SparkSession.builder().appName("TransformationsDemo").master("local[1]").getOrCreate()

    val sc = sparkSession.sparkContext

    testBroadcast(sc)

  }

  private def testBroadcast(sc: SparkContext) = {

    val factor = 3

    val factorBroadcast: Broadcast[Int] = sc.broadcast(factor)

    var data = sc.parallelize(Array(1, 2, 3, 4, 5), 2)

    data.map(num => num * factorBroadcast.value).collect().foreach(println)

  }

}

运行结果：

累加器
累加器是仅仅被相关操作累加的变量，因此可以在并行中被有效地支持。它可以被用来实现计数器和总和。

import org.apache.spark.SparkContext

import org.apache.spark.broadcast.Broadcast

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

import org.apache.spark.util.LongAccumulator

object TransformationsDemo {

  def main(args: Array[String]): Unit = {

    val sparkSession = SparkSession.builder().appName("TransformationsDemo").master("local[1]").getOrCreate()

    val sc = sparkSession.sparkContext

    testAccumulator(sc)

  }

  private def testAccumulator(sc: SparkContext) = {

    val sum: LongAccumulator = sc.longAccumulator("My Accumulator")

    var data = sc.parallelize(Array(1, 2, 3, 4, 5), 2)

    data.foreach(num => sum.add(num))

    println(sum.value)

  }

}

运行结果：　　

Spark 学习笔记之共享变量的更多相关文章

Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...

随机推荐

51nod 1020 逆序排列（dp，递推）
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1020 题意:是中文题. 题解:很显然要设dp[i][j]表示 ...
codeforces 361 D. Levko and Array（dp+二分）
题目链接:http://codeforces.com/contest/361/problem/D 题意:最多可以修改K次数字,每次修改一个数字变成任意值,C=max(a[i+1]-a[i]):求操作之 ...
hdu 4725 The Shortest Path in Nya Graph（建图+优先队列dijstra）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4725 题意:有n个点和n层,m条边,每一层的任意一个点都可以花费固定的值到下一层或者上一层的任意点然 ...
百度之星资格赛 1003 度度熊与邪恶大魔王 dp（背包）
度度熊与邪恶大魔王 Accepts: 1141 Submissions: 6840 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 3 ...
调用arcpy包批量进行矢量掩膜提取
使用一个polygon矢量提取某个文件夹中所有的tif格式栅格数据 (要确保先安装好arcpy包) import arcpy arcpy.CheckOutExtension("spatial ...
【Offer】[26] 【树的子结构】
题目描述思路分析测试用例 Java代码代码链接题目描述输入两棵二叉树A和B,判断B是不是A的子结构.图中右边的树是左边的子结构思路分析先对树A进行遍历,找到与树B的根结点值相同的节点 ...
封装axios来管控api的2种方式
前言:我们在开发项目的时候,往往要处理大量的接口.并且在测试环境开发环境生产环境使用的接口baseurl都不一样这时候如果在开发环境完成之后切换每一个接口的baseurl会变的非常的麻烦,(要去 ...
[ERR] 1118 - Row size too large (> 8126). Changing some columns to TEXT or BLOB may help. In current row format, BLOB prefix of 0 bytes is stored inline.
昨天,在测试新的数据库时,迁移表遇到了这个问题.现在记录一下解决方案. 1.在配置文件中添加关闭严格模式的配置:sql_mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS ...
1张影射过往的图片，如何勾起往事的回忆，.CORE其实可以是这样的吗？
看到某人写了一个流程分析貌似可以披云见日,形似之余好像回忆可以相得益彰然后我刚刚不小心发布了,当然要准备100字的说明,这个字应该怎么打好呢,不知不觉打了好多字,我好难啊首先这是正常情况看不到的图 ...
java8函数式接口详解、函数接口详解、lambda表达式匿名函数、方法引用使用含义、函数式接口实例、如何定义函数式接口
函数式接口详细定义函数式接口只有一个抽象方法由于default方法有一个实现,所以他们不是抽象的. 如果一个接口定义了一个抽象方法,而他恰好覆盖了Object的public方法,仍旧不算做接口的抽 ...

Spark 学习笔记之 共享变量

Spark 学习笔记之 共享变量的更多相关文章

随机推荐

热门专题

Spark 学习笔记之共享变量

Spark 学习笔记之共享变量的更多相关文章