【Spark Java API】broadcast、accumulator
转载自:http://www.jianshu.com/p/082ef79c63c1
broadcast
官方文档描述:
- Broadcast a read-only variable to the cluster, returning a
- [[org.apache.spark.broadcast.Broadcast]] object for reading it in distributed functions.
- The variable will be sent to each cluster only once.
函数原型:
- def broadcast[T](value: T): Broadcast[T]
广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。Spark还尝试使用高效地广播算法来分发变量,进而减少通信的开销。 Spark的动作通过一系列的步骤执行,这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存,在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据,或者以反序列化形式缓存数据是十分重要的时候,显式地创建广播变量才有用。
源码分析:
- def broadcast[T: ClassTag](value: T): Broadcast[T] = {
- assertNotStopped()
- if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) {
- // This is a warning instead of an exception in order to avoid breaking user programs that
- // might have created RDD broadcast variables but not used them:
- logWarning("Can not directly broadcast RDDs; instead, call collect() and "
- + "broadcast the result (see SPARK-5063)")
- }
- val bc = env.broadcastManager.newBroadcast[T](value, isLocal)
- val callSite = getCallSite
- logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)
- cleaner.foreach(_.registerBroadcastForCleanup(bc))
- bc
- }
实例:
- List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
- JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);
- final Broadcast<List<Integer>> broadcast = javaSparkContext.broadcast(data);
- JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {
- List<Integer> iList = broadcast.value();
- @Override
- public Integer call(Integer v1) throws Exception {
- Integer isum = 0;
- for(Integer i : iList)
- isum += i;
- return v1 + isum;
- }
- });
- System.out.println(result.collect());
accumulator
官方文档描述:
- Create an [[org.apache.spark.Accumulator]] variable of a given type, which tasks can "add"
- values to using the `add` method. Only the master can access the accumulator's `value`.
函数原型:
- def accumulator[T](initialValue: T, accumulatorParam: AccumulatorParam[T]): Accumulator[T]
- def accumulator[T](initialValue: T, name: String, accumulatorParam: AccumulatorParam[T])
- : Accumulator[T]
累加器是仅仅被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和sum。Spark原生地只支持数字类型的累加器,开发者可以添加新类型的支持。如果创建累加器时指定了名字,可以在Spark的UI界面看到。这有利于理解每个执行阶段的进程(对于Python还不支持) 。
累加器通过对一个初始化了的变量v调用SparkContext.accumulator(v)来创建。在集群上运行的任务可以通过add或者”+=”方法在累加器上进行累加操作。但是,它们不能读取它的值。只有驱动程序能够读取它的值,通过累加器的value方法。
源码分析:
- def accumulator[T](initialValue: T, name: String)(implicit param: AccumulatorParam[T])
- : Accumulator[T] = {
- val acc = new Accumulator(initialValue, param, Some(name))
- cleaner.foreach(_.registerAccumulatorForCleanup(acc))
- acc
- }
实例:
- class VectorAccumulatorParam implements AccumulatorParam<Vector> {
- @Override
- //合并两个累加器的值。
- //参数r1是一个累加数据集合
- //参数r2是另一个累加数据集合
- public Vector addInPlace(Vector r1, Vector r2) {
- r1.addAll(r2);
- return r1;
- }
- @Override
- //初始值
- public Vector zero(Vector initialValue) {
- return initialValue;
- }
- @Override
- //添加额外的数据到累加值中
- //参数t1是当前累加器的值
- //参数t2是被添加到累加器的值
- public Vector addAccumulator(Vector t1, Vector t2) {
- t1.addAll(t2);
- return t1;
- }
- }
- List<Integer> data = Arrays.asList(5, 1, 1, 4, 4, 2, 2);
- JavaRDD<Integer> javaRDD = javaSparkContext.parallelize(data,5);
- final Accumulator<Integer> accumulator = javaSparkContext.accumulator(0);
- Vector initialValue = new Vector();
- for(int i=6;i<9;i++)
- initialValue.add(i);
- //自定义累加器
- final Accumulator accumulator1 = javaSparkContext.accumulator(initialValue,new VectorAccumulatorParam());
- JavaRDD<Integer> result = javaRDD.map(new Function<Integer, Integer>() {
- @Override
- public Integer call(Integer v1) throws Exception {
- accumulator.add(1);
- Vector term = new Vector();
- term.add(v1);
- accumulator1.add(term);
- return v1;
- }
- });
- System.out.println(result.collect());
- System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator.value());
- System.out.println("~~~~~~~~~~~~~~~~~~~~~" + accumulator1.value());
【Spark Java API】broadcast、accumulator的更多相关文章
- 【Spark调优】Broadcast广播变量
[业务场景] 在Spark的统计开发过程中,肯定会遇到类似小维表join大业务表的场景,或者需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时应该使用Spark的广 ...
- HBase【操作Java api】
一.导入依赖 创建模块,导入以下依赖,maven默认编译版本是1.5,用1.8编译. pom.xml <dependencies> <dependency> <group ...
- 【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
- 【Spark调优】数据倾斜及排查
[数据倾斜及调优概述] 大数据分布式计算中一个常见的棘手问题——数据倾斜: 在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或j ...
- 【高德地图API】从零开始学高德JS API(二)地图控件与插件——测距、圆形编辑器、鼠标工具、地图类型切换、鹰眼鱼骨
原文:[高德地图API]从零开始学高德JS API(二)地图控件与插件——测距.圆形编辑器.鼠标工具.地图类型切换.鹰眼鱼骨 摘要:无论是控件还是插件,都是在一级API接口的基础上,进行二次开发,封装 ...
- 【百度地图API】如何用圆形搜索获取中心点周围100米内全部关键点?如天安门附近所有的餐厅、加油站、宾馆、大厦等
原文:[百度地图API]如何用圆形搜索获取中心点周围100米内全部关键点?如天安门附近所有的餐厅.加油站.宾馆.大厦等 摘要: 在LBS上有这样一个常用的功能,查找附近所有的关键点(POI点,比如标志 ...
- 【Java基础】11、java方法中只有值传递,没有引用传递
public class Example { String testString = new String("good"); char[] testCharArray = {'a' ...
- 【Java基础】4、java中的内部类
内部类的分类:常规内部类.静态内部类.私有内部类.局部内部类.匿名内部类. 实例1:常规内部类 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 ...
- 【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
随机推荐
- FCC JS基础算法题(6):Truncate a string(截断字符串)
先看一下题目描述: 如果字符串的长度比指定的参数num长,则把多余的部分用...来表示.切记,插入到字符串尾部的三个点号也会计入字符串的长度.但是,如果指定的参数num小于或等于3,则添加的三个点号不 ...
- HDU 6038 17多校1 Function(找循环节/环)
Problem Description You are given a permutation a from 0 to n−1 and a permutation b from 0 to m−1. D ...
- 【Python】xml 解析
1. XML:指可扩展标记语言,是一种标记语言,用于存储数据和传输数据,但没有像HTML那样具有预定义标签,需要程序猿自定义标签 2. XML的解析:读取XML数据结构中的某些信息,比如读取书的属性 ...
- Java包、类、数据类型、表达式和标识符
1.基本数据类型 类型名称 类型长度 取值范围 byte 8位(1字节) -128~127 short 16位(2字节) -32768~32767 int 32位(4字节) -2147483648~2 ...
- 20165228 2017-2018-2 《Java程序设计》第9周学习总结
20165228 2017-2018-2 <Java程序设计>第9周学习总结 教材学习内容总结 URL类是java.net包中的一个重要的类,URL的实例封装着一个统一资源定位符(Unif ...
- ogg-./ggsci ./ggsci: error while loading shared libraries: libnnz11.so:
测试环境,安装linux 0gg,解压介质后./ggsci无法使用,提示目录不存在 原来是环境变量导致的问题: 1.报错现象 [ogg@enmo ogg]$ ./ggsci ./ggsci: erro ...
- SLES 12 sp2开启SuSEfirewall2 防火墙后,放行VRRP协议 (用于keepalived搭建高可用规则)
centos 6下面修改防火墙vi /etc/sysconfig/iptables 增加这个-A INPUT -p 112 -d 224.0.0.0/32 -j ACCEPT #-p 112指定协议为 ...
- CodeForces - 441E:Valera and Number (DP&数学期望&二进制)
Valera is a coder. Recently he wrote a funny program. The pseudo code for this program is given belo ...
- react状态提升问题::::
父组件传值给子组件,只需要在组件上写上naverightstates={this.state.naverightstates},然后在子组件里面引用this.props.naverightstates ...
- eclipse + cdt
Window > Preferences > General > Appearance中设置主题颜色. Help > eclipse marketplace > find ...