Spark累加器

spark累计器

因为task的执行是在多个Executor中执行，所以会出现计算总量的时候，每个Executor只会计算部分数据，不能全局计算。

累计器是可以实现在全局中进行累加计数。

注意：

累加器只能在driver端定义，driver端读取，不能在Executor端读取。

广播变量只能在driver端定义，在Executor端读取，Executor不能修改。

下面是实践的代码：

package SparkStreaming;

import org.apache.commons.collections.iterators.ArrayListIterator;

import org.apache.commons.io.LineIterator;

import org.apache.spark.Accumulator;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import java.util.Iterator;

import java.util.List;

public class totalization_device {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setMaster("local[2]")

                .setAppName("totalization_device");

        JavaSparkContext sc = new JavaSparkContext(conf);

        /*

        * 定义一个累加器

        * */

        Accumulator<Integer> accumulator = sc.accumulator();

        JavaRDD<String> fileRDD = sc.textFile("E:/2018_cnic/learn/wordcount.txt");

        JavaRDD<String> fileRDD1 = fileRDD.flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterator<String> call(String s) throws Exception {

                accumulator.add();

                return new ArrayListIterator(s.split(" "));

            }

        });

        JavaPairRDD<String, Integer> pairRDD = fileRDD1.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s,);

            }

        });

        JavaPairRDD<String, Integer> reducebykeyRDD = pairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer integer, Integer integer2) throws Exception {

                return integer + integer2;

            }

        });

        List<Tuple2<String, Integer>> collect = reducebykeyRDD.collect();

        for(Tuple2 tup:collect){

            System.out.println(tup);

        }

        Integer num = accumulator.value();

        System.out.println("一共有："+num+"行");

        sc.close();

    }

}

结果输出：

// :: INFO TaskSetManager: Finished task 1.0 in stage 1.0 (TID ) in  ms on localhost (executor driver) (/)

// :: INFO TaskSetManager: Finished task 0.0 in stage 1.0 (TID ) in  ms on localhost (executor driver) (/)

// :: INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool

// :: INFO DAGScheduler: ResultStage  (collect at totalization_device.java:) finished in 0.051 s

// :: INFO DAGScheduler: Job  finished: collect at totalization_device.java:, took 0.273877 s

(,)

(authentication,)

(Registered,)

(is,)

(Found,)

(master.Master:,)

(spark.SecurityManager:,)

(util.log:,)

(,)

(modify,)

(classes,)

(,)

([jar:file:/opt/workspace/hive-3.1./lib/log4j-slf4j-impl-2.10..jar!/org/slf4j/impl/StaticLoggerBinder.class],)

(.,)

(type,)

(with,)

(INFO,)

(permissions:,)

(groups,)

(using,)

(//,)

(Class,)

(@1326ms,)

(WARN,)

(root,)

(signal,)

('MasterUI',)

(,)

(,)

(Set(root);,)

(version,)

(,)

(ui,)

(,)

(load,)

(Set();,)

(,)

(,)

(::,)

(Actual,)

(initialized,)

(server.Server:,)

(master,)

(,)

(multiple,)

(56130C,)

(handler,)

(,)

(,)

(TERM,)

(,)

(daemon,)

(bindings.,)

(builtin-java,)

(server.AbstractConnector:,)

(users,)

([jar:file:/opt/workspace/hbase-1.4./lib/slf4j-log4j12-1.7..jar!/org/slf4j/impl/StaticLoggerBinder.class],)

(http://www.slf4j.org/codes.html#multiple_bindings,1)

(105L,,)

(Starting,)

(jetty-9.3.z-SNAPSHOT,)

(Spark,)

(,)

(SLF4J,)

(platform...,)

(,)

(util.NativeCodeLoader:,)

(Successfully,)

(on,)

('sparkMaster',)

(library,)

(service,)

(,)

(at,)

(in,)

(,)

(@master1,)

(See,)

(.,)

(Logging,)

(missions:,)

(util.Utils:,)

(spark://master1:7077,1)

(for,)

(Changing,)

(,)

(native-hadoop,)

(port,)

(Running,)

(explanation.,)

(your,)

(view,)

(acls,)

(,)

(Unable,)

(binding,)

(to:,)

(disabled;,)

(contains,)

(util.SignalUtils:,)

(process,)

(,)

(SLF4J:,)

(ServerConnector@1cbf22af{HTTP/1.1,[http/1.1]}{0.0.0.0:},)

(,)

(,)

(,)

(SecurityManager:,)

(Started,)

(INT,)

(Set(),)

("spark-root-org.apache.spark.deploy.master.Master-1-master1.out",)

(to,)

(applicable,)

(HUP,)

(started,)

(of,)

(path,)

(where,)

(,)

(an,)

([jar:file:/opt/workspace/hadoop-2.9./share/hadoop/common/lib/slf4j-log4j12-1.7..jar!/org/slf4j/impl/StaticLoggerBinder.class],)

([org.slf4j.impl.Log4jLoggerFactory],)

(2.3.,)

(::,)

(@1280ms,)

(name:,)

(per,)

一共有：25行

// :: INFO SparkUI: Stopped Spark web UI at http://hadoop:4040

// :: INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!

// :: INFO MemoryStore: MemoryStore cleared

// :: INFO BlockManager: BlockManager stopped

// :: INFO BlockManagerMaster: BlockManagerMaster stopped

// :: INFO

Spark累加器的更多相关文章

Spark 累加器
由于spark是分布式的计算,所以使得每个task间不存在共享的变量,而为了实现共享变量spark实现了两种类型 - 累加器与广播变量, 对于其概念与理解可以参考:共享变量(广播变量和累加器).可能需 ...
spark累加器、广播变量
一言以蔽之: 累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只 ...
Spark累加器(Accumulator)陷阱及解决办法
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变.累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数 ...
Spark累加器（Accumulator）
一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark St ...
入门大数据---Spark累加器与广播变量
一.简介在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景: ...
Spark(八)【广播变量和累加器】
目录一. 广播变量使用二. 累加器使用使用场景自定义累加器在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的 ...
Spark处理日志文件常见操作
spark有自己的集群计算技术,扩展了hadoop mr模型用于高效计算,包括交互式查询和流计算.主要的特性就是内存的集群计算提升计算速度.在实际运用过程中也当然少不了对一些数据集的操作.下面将通过 ...
spark面试总结3
Spark core面试篇03 1.Spark使用parquet文件存储格式能带来哪些好处? 1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式 ...
Spark面试相关
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能.前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有s ...

随机推荐

超赞！UX写手必备技能
以下内容由Mockplus团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具. 今天,小编非常荣幸能与大家一起分享一些优秀UX 写手必备的成功技能: 1.开篇抓住用户的心 MBE曾 ...
js去掉字符串前后空格的五种方法(转)
出处:http://www.2cto.com/kf/201204/125943.html 第一种:循环检查替换[javascript]//供使用者调用 function trim(s){ retu ...
[GO]redis的连接
package main import ( "github.com/garyburd/redigo/redis" "fmt" ) var pool *redis ...
Selenium Webdriver定位元素的几种方式
原文:http://www.cnblogs.com/tobecrazy/p/4570494.html 工作中使用到记录一下. 主要有: 上传 alter dialog prompt dialog co ...
linux每天一小步---find命令详解
1 命令功能 find命令用于搜索指定目录下的文件,并配合参数做出相应的处理. 2 命令语法 find 搜索路径pathname 选项option [-exec -ok -print 执 ...
汉诺塔问题的算法分析与实现（Java）
汉诺塔问题是源于印度一个古老传说的益智玩具.要求将圆盘从A柱移动到C柱规定,在小圆盘上不能放大圆盘,在三根柱子之间一次只能移动一个圆盘. 可以先通过3个盘子的hanoi游戏得出其算法步骤如下: if ...
Oracle EBS Export File Format
Profile Option Name Site Application Responsibility Server Server Org User Remark Export MIME type t ...
python面试题之如何计算一个字符串的长度
在我们想计算长度的字符串上调用函数len()即可 >>> len('hhhhhhhhjg') 10 所属网站分类: 面试经典 > python 作者:外星人入侵链接:http ...
.net core 2.0 mvc 初步学习
mvc_study *:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !impor ...
在 Cef 中实现 C++ 与 JavaScript 交互场景分析
此文已由作者邓佳佳授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验本文主要介绍 CEF 场景中 C++ 和 JavaScript 交互(以下简称 JS Bridge)中的一些重 ...

Spark累加器

Spark累加器的更多相关文章

随机推荐

热门专题