spark accumulator累加器

java

 /**

  * accumulator可以让多个task共同操作一份变量,主要进行多个节点对一个变量进行共享性的操作,accumulator只提供了累加的功能

  * 只有driver可以获取accumulator的值

  * @author Tele

  */

 public class AccumulatorDemo {

     private static SparkConf conf = new SparkConf().setMaster("local").setAppName("AccumulatorDemo");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     public static void main(String[] args) {

         List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6);

         JavaRDD<Integer> rdd = jsc.parallelize(list);

         /*

          * Accumulator<Integer> accumulator = jsc.accumulator(10);

          *

          * rdd.foreach(new VoidFunction<Integer>() {

          *

          * private static final long serialVersionUID = 1L;

          *

          * @Override public void call(Integer t) throws Exception { accumulator.add(t);

          * } }); System.out.println(accumulator.value());

          */

         LongAccumulator la = new LongAccumulator();

         la.setValue(100L);

         jsc.sc().register(la, "数值累加器");

         rdd.foreach(new VoidFunction<Integer>() {

             private static final long serialVersionUID = 1L;

             @Override

             public void call(Integer t) throws Exception {

                 // 不能在算子内部获得accumulator.value()

                 la.add(t);

             }

         });

         System.out.println(la.value());

         jsc.close();

     }

 }

scala

 object AccumulatorDemo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setMaster("local").setAppName("accumulator");

     val sc = new SparkContext(conf);

     val arr = Array(1, 2, 3, 4, 5);

     val rdd = sc.parallelize(arr, 1);

     val accumulator = new LongAccumulator;

     accumulator.add(100);

     sc.register(accumulator);

     rdd.foreach(accumulator.add(_));

     println(accumulator.value);

   }

 }

spark accumulator累加器的更多相关文章

spark.Accumulator
scala> val accum = sc.accumulator() accum: org.apache.spark.Accumulator[Int] = scala> sc.paral ...
Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）
1.rdd持久化 2.广播 3.累加器 1.rdd持久化通过spark-shell,可以快速的验证我们的想法和操作! 启动hdfs集群 spark@SparkSingleNode:/usr/loca ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark共享变量(广播变量、累加器)
转载自:https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量:广播变量(broadcast variable)与 ...
【Spark Java API】broadcast、accumulator
转载自:http://www.jianshu.com/p/082ef79c63c1 broadcast 官方文档描述: Broadcast a read-only variable to the cl ...
Spark累加器
spark累计器因为task的执行是在多个Executor中执行,所以会出现计算总量的时候,每个Executor只会计算部分数据,不能全局计算. 累计器是可以实现在全局中进行累加计数. 注意: 累加 ...
pyspark中使用累加器Accumulator统计指标
评价分类模型的性能时需要用到以下四个指标最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 # evaluate model TP = labelAndPreds.f ...
spark累加器、广播变量
一言以蔽之: 累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只 ...
spark 变量使用 broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broa ...

随机推荐

DB2 概览
2006:IBM公布DB2.9.将数据库领域带入XML时代.IT建设业已进入SOA(Service-Oriented Architecture)时代.实现SOA.其核心难点是顺畅解决不同应用间的数据交 ...
Ubuntu VMware Tools安装详细过程(非常靠谱)
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 一.前言 VMware Ubuntu安装以及详细过程:https://blog.csdn.net/qq_41782425/arti ...
iOS开发- iOS7显示偏差(UITableView下移)解决的方法
之前碰到过一个问题. 就是利用storyboard拖动出来的控件, 在iOS7上跑老是莫名的下移. 比方这样(红色区域为多余的) 解决的方法: iOS7在Conttoller中新增了这个属性: aut ...
UVA 10340 - All in All 水~
看题传送门 Problem E All in All Input: standard input Output: standard output Time Limit: 2 seconds Memor ...
UVA 11039 - Building designing 水题哇~
水题一题,按绝对值排序后扫描一片数组(判断是否异号,我是直接相乘注意中间值越界)即可. 感觉是让我练习sort自定义比较函数的. #include<cstdio> #include< ...
DOS 命令forfiles
forfiles /p E:/dbbackup/diff /s /m *.* /d -14 /c "cmd /c del @file" forfiles: /p 指定的路径 /s ...
4、qq物联SDK介绍及实例讲解
1.到QQ物联官网http://iot.open.qq.com中下载软件SDK S3C2440_20161122_1.6.205_r4288.tar.gz注意:在后续大家实际开发过程中,可能你会下载到 ...
如何使stm32程序更好移植, 结构体相当于define
原创:转载请标注引用地址如何定义 led1对应于PA8 呢 :对于我一开始学习的方法:: #include "main.h" #define led1 GPIO_Pi ...
linux跟踪线程的方法：LWP和strace命令
摘要:在使用多线程程序时,有时会遇到程序功能异常的情况,而这种异常情况并不是每次都发生,很难模拟出来.这时就需要运用在程序运行时跟踪线程的手段,而linux系统的LWP和strace命令正是这种技术手 ...
多事务运行并发问题spring学习笔记——数据库事务并发与锁详解
多事务运行并发问题在实际应用中,往往是一台(或多台)服务器向无数客户程序提供服务,当服务器查询数据库获取数据时,如果没有采用必要的隔离机制,可能会存在数据库事务的并发问题,下面是一些常见的并发问题分 ...

spark accumulator累加器

spark accumulator累加器的更多相关文章

随机推荐

热门专题