Spark 自定义累加变量(Accmulator)AccumulatorParam

1.创建一个累加变量

public <T> Accumulator<T> accumulator(T initialValue,

                             AccumulatorParam<T> param)

Create an Accumulator variable of a given type, which tasks can "add" values to using the += method. Only the driver can access the accumulator's value.

Parameters:

initialValue - (undocumented)

param - (undocumented)

Returns:

(undocumented)

使用SparkContext的如上方法，可以创建一个累加变量。默认情况下，这里的T是int或者double，因此如果想要创建T为long的累加变量是不行的。

2.AccumulatorParam介绍

概念：

initialValue：Accumulator的初始值，也就是调用SparkContext.accululator时传递的initialValue

zeroValue:AccumulatorParam的初始值，也就是zero方法的返回值。

假设样本数据集合为simple={1,2,3,4}

执行顺序:

1.调用zero(initialValue)，返回zeroValue

2.调用addAccumulator(zeroValue,1) 返回v1.

调用addAccumulator(v1,2)返回v2.

调用addAccumulator(v2,3)返回v3.

调用addAccumulator(v3,4)返回v4.

3.调用addInPlace(initialValue,v4)

因此最终结果是zeroValue+1+2+3+4+initialValue.

3.实现AccumulatorParam

import org.apache.spark.AccumulatorParam;

public class LongAccumulator implements AccumulatorParam<Long>{

        //执行完addAccumulator方法之后，最后会执行这个方法，将value加到init。

        @Override

        public Long addInPlace(Long init, Long value) {

            // TODO Auto-generated method stub

            // return arg0+arg1;

            System.out.println(init+":"+value);

            return init+value;

        }

        /*

         * init 就是SparkContext.accumulator(init)参数init。

         * 这里的返回值是累计的起始值。注意哦，他可以不等于init。

         *

         * 如果init=10,zero(init)=0,那么运算过程如下:

         * v1:=0+step

         * v1:=v1+step

         * ...

         * ...

         * 最后v1:=v1+init

         **/

        @Override

        public Long zero(Long init) {

            // TODO Auto-generated method stub

            System.out.println(init);

            return 0l;

        }

        @Override

        public Long addAccumulator(Long value, Long step) {

            // TODO Auto-generated method stub

            System.out.println(value+","+step);

            return value+step;

        }

    }

接下来使用它。

import java.util.Arrays;

import java.util.List;

import org.apache.spark.Accumulator;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.VoidFunction;

public class AccumulatorDemo {

    public static void main(String[]args){

        SparkConf conf=new SparkConf().setAppName("AccumulatorDemo").setMaster("local");

        JavaSparkContext sc=new JavaSparkContext(conf);

        Accumulator<Long> acc=sc.accumulator(0L,new LongAccumulator());

        List<Long> seq=Arrays.asList(1L,2L,3L,4L);

        JavaRDD<Long> rdd=sc.parallelize(seq);

        rdd.foreach(new VoidFunction<Long>(){

            @Override

            public void call(Long arg0) throws Exception {

                acc.add(arg0);

            }

        });

        System.out.println(acc.value());;

    }

Spark 自定义累加变量(Accmulator)AccumulatorParam的更多相关文章

大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
MVC路由探寻,涉及路由的惯例、自定义片段变量、约束、生成链接和URL等
引子在了解MVC路由之前,必须了解的概念是"片段".片段是指除主机名和查询字符串以外的.以"/"分隔的各个部分.比如,在http://site.com/Hom ...
Xcode 8:在 Active Compilation Conditions 中自定义环境变量
来源:没故事的卓同学链接:http://www.jianshu.com/p/96b36360bb2d 在Xcode 7我们在 OTHER_SWIFT_FLAGS中配置环境变量.但是有一个不爽的地方就 ...
XCode 设置自定义环境变量
XCode 设置自定义环境变量 Product -> Scheme -> Edit Scheme -> 之后设置环境变量.
自学Linux Shell6.2-用户自定义环境变量
点击返回自学Linux命令行与Shell脚本之路 6.2-用户自定义环境变量 1.设置局部用户定义变量一旦启动bash shell(或者执行一个shell脚本),你就能创建这个shell进程可见的 ...
GridView的HyperLinkField的DataNavigateUrlFormatString如何使用自定义的变量，而不是数据库绑定的值
GridView的HyperLinkField的DataNavigateUrlFormatString如何使用自定义的变量,而不是数据库绑定的值.报错:指定的参数已超出有效值的范围.参数名: inde ...
Python语言程序设计之一--for循环中累加变量是否要清零
最近学到了Pyhton中循环这一章.之前也断断续续学过,但都只是到了函数这一章就停下来了,写过的代码虽然保存了下来,但是当时的思路和总结都没有记录下来,很可惜.这次我开通了博客,就是要把这些珍贵的学习 ...
OpenShift 自定义 OPENSHIFT_DOCUMENT_ROOT 变量，替换网站根目录路径！
OpenShift 自定义 OPENSHIFT_DOCUMENT_ROOT 变量,替换网站根目录路径! 预先定义的子目录 :) DIY: DocumentRoot=${OPENSHIFT_RE ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...

随机推荐

创建一个自定义颜色IRgbColor
后续文章需要用到,很简单的一个小函数 /// <summary> /// 自定义颜色 /// </summary> /// <param name="r&quo ...
简单的STM32 汇编程序—闪烁LED
要移植操作系统,汇编是道不得不跨过去的坎.所以承接上篇的思路,我准备用汇编写一个简单的闪烁LED灯的程式.以此练习汇编,为操作系统做准备. 第一步,还是和上篇一样,建立一个空的文件夹. 第二步,因为是 ...
IOS热更新－JSPatch实现原理+Patch现场恢复
关于HotfixPatch 在IOS开发领域,由于Apple严格的审核标准和低效率,IOS应用的发版速度极慢,稍微大型的app发版基本上都在一个月以上,所以代码热更新(HotfixPatch)对于IO ...
QQ空间HD(6)-实现自定义的选项卡切换效果
DJTabbarButton.m #import "DJTabbarButton.h" @implementation DJTabbarButton - (instancetype ...
hadoop源码编译——2.5.0版本
强迫症必治: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using b ...
tyvj1113 魔族密码
描述风之子刚走进他的考场,就…… 花花:当当当当~~偶是魅力女皇——花花!!^^(华丽出场,礼炮,鲜花) 风之子:我呕……(杀死人的眼神)快说题目!否则……-_-### 花 ...
codevs3163 抄书问题2
题目描述 Description 现在要把M本有顺序的书分给K个人复制(抄写),每一个人的抄写速度都一样,一本书不允许给两个(或以上)的人抄写,分给每一个人的书,必须是连续的,比如不能把第一.第三. ...
Hadoop 2.6.0+ZooKeeper+Hive HA高可用集群安装
http://blog.csdn.net/totxian/article/details/45248399
CSS透明代码
透明往往能产生不错的网页视觉效果,先奉上兼容主流浏览器的CSS透明代码: .transparent_class { filter:alpha(opacity=50); -moz-opacity:0.5 ...
weblogic虚拟路径的配置和使用
项目场景: 公司中医疗项目需要展示药品说明书的其他版本(图片或者PDF),由于其他版本文件存在Linux服务器上,由于服务器用的是weblogic, 无法直接访问文件,因此可以用weblogic的虚拟 ...

Spark 自定义累加变量(Accmulator)AccumulatorParam

Spark 自定义累加变量(Accmulator)AccumulatorParam的更多相关文章

随机推荐

热门专题