累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。

Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。

     val sparkConf = new SparkConf().setAppName("Test").setMaster("local[2]")

     val sc = new SparkContext(sparkConf)

     val accum = sc.longAccumulator("longAccum") //统计奇数的个数

     val sum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2).filter(n=>{

       if(n%2!=0) accum.add(1L)

       n%2==0

     }).reduce(_+_)

     println("sum: "+sum)

     println("accum: "+accum.value)

     sc.stop()

结果为：

sum: 20
accum: 5

这是结果正常的情况，但是在使用累加器的过程中如果对于spark的执行过程理解的不够深入就会遇到两类典型的错误：少加（或者没加）、多加。

少加的情况：

对于如下代码：

     val accum = sc.longAccumulator("longAccum")

     val numberRDD = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2).map(n=>{

       accum.add(1L)

       n+1

     })

     println("accum: "+accum.value)

执行完毕，打印的值是多少呢？答案是0，因为累加器不会改变spark的lazy的计算模型，即在打印的时候像map这样的transformation还没有真正的执行，从而累加器的值也就不会更新。

多加的情况：

对于如下代码：

     val accum = sc.longAccumulator("longAccum")

     val numberRDD = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2).map(n=>{

       accum.add(1L)

       n+1

     })

     numberRDD.count

     println("accum1:"+accum.value)

     numberRDD.reduce(_+_)

     println("accum2: "+accum.value)

结果我们得到了：

accum1:9

accum2: 18

我们虽然只在map里进行了累加器加1的操作，但是两次得到的累加器的值却不一样，这是由于count和reduce都是action类型的操作，触发了两次作业的提交，所以map算子实际上被执行了了两次，在reduce操作提交作业后累加器又完成了一轮计数，所以最终累加器的值为18。究其原因是因为count虽然促使numberRDD被计出来，但是由于没有对其进行缓存，所以下次再次需要使用numberRDD这个数据集是，还需要从并行化数据集的部分开始执行计算。解释到这里，这个问题的解决方法也就很清楚了，就是在count之前调用numberRDD的cache方法（或persist），这样在count后数据集就会被缓存下来，reduce操作就会读取缓存的数据集而无需从头开始计算了。改成如下代码即可：

     val accum = sc.longAccumulator("longAccum")

     val numberRDD = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2).map(n=>{

       accum.add(1L)

       n+1

     })

     numberRDD.cache().count

     println("accum1:"+accum.value)

     numberRDD.reduce(_+_)

     println("accum2: "+accum.value)

这次两次打印的值就会保持一致了。

自定义累加器

自定义累加器类型的功能在1.X版本中就已经提供了，但是使用起来比较麻烦，在2.0版本后，累加器的易用性有了较大的改进，而且官方还提供了一个新的抽象类：AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。官方同时给出了一个实现的示例：CollectionAccumulator类，这个类允许以集合的形式收集spark应用执行过程中的一些信息。例如，我们可以用这个类收集Spark处理数据时的一些细节，当然，由于累加器的值最终要汇聚到driver端，为了避免
driver端的outofmemory问题，需要对收集的信息的规模要加以控制，不宜过大。

实现自定义类型累加器需要继承AccumulatorV2并至少覆写下例中出现的方法，下面这个累加器可以用于在程序运行过程中收集一些文本类信息，最终以Set[String]的形式返回。

 import java.util

 import org.apache.spark.util.AccumulatorV2

 class LogAccumulator extends AccumulatorV2[String, java.util.Set[String]] {

   private val _logArray: java.util.Set[String] = new java.util.HashSet[String]()

   override def isZero: Boolean = {

     _logArray.isEmpty

   }

   override def reset(): Unit = {

     _logArray.clear()

   }

   override def add(v: String): Unit = {

     _logArray.add(v)

   }

   override def merge(other: AccumulatorV2[String, java.util.Set[String]]): Unit = {

     other match {

       case o: LogAccumulator => _logArray.addAll(o.value)

     }

   }

   override def value: java.util.Set[String] = {

     java.util.Collections.unmodifiableSet(_logArray)

   }

   override def copy(): AccumulatorV2[String, util.Set[String]] = {

     val newAcc = new LogAccumulator()

     _logArray.synchronized{

       newAcc._logArray.addAll(_logArray)

     }

     newAcc

   }

 }

测试类：

 import java.util

 import org.apache.spark.util.AccumulatorV2

 class LogAccumulator extends AccumulatorV2[String, java.util.Set[String]] {

   private val _logArray: java.util.Set[String] = new java.util.HashSet[String]()

   override def isZero: Boolean = {

     _logArray.isEmpty

   }

   override def reset(): Unit = {

     _logArray.clear()

   }

   override def add(v: String): Unit = {

     _logArray.add(v)

   }

   override def merge(other: AccumulatorV2[String, java.util.Set[String]]): Unit = {

     other match {

       case o: LogAccumulator => _logArray.addAll(o.value)

     }

   }

   override def value: java.util.Set[String] = {

     java.util.Collections.unmodifiableSet(_logArray)

   }

   override def copy(): AccumulatorV2[String, util.Set[String]] = {

     val newAcc = new LogAccumulator()

     _logArray.synchronized{

       newAcc._logArray.addAll(_logArray)

     }

     newAcc

   }

 }

本例中利用自定义的收集器收集过滤操作中被过滤掉的元素，当然这部分的元素的数据量不能太大。运行结果如下：

sum; 32
7cd 4b 2a

Spark累加器(Accumulator)陷阱及解决办法的更多相关文章

Spark运行程序异常信息： org.apache.spark.SparkException: Task not serializable 解决办法
错误信息: 17/05/20 18:51:39 ERROR JobScheduler: Error running job streaming job 1495277499000 ms.0 org.a ...
Spark 累加器
由于spark是分布式的计算,所以使得每个task间不存在共享的变量,而为了实现共享变量spark实现了两种类型 - 累加器与广播变量, 对于其概念与理解可以参考:共享变量(广播变量和累加器).可能需 ...
IDEA15 下运行Scala遇到问题以及解决办法
为了让Scala运行起来还是很麻烦,为了大家方便,还是记录下来: 1.首先我下载的是IDEA的社区版本,版本号为15. 2.下载安装scala插件: 2.1 进入设置菜单. 2.2 点击安装JetBr ...
eclipse运行spark程序时日志颜色为黑色的解决办法
自从开始学习spark计算框架以来,我们老师教的是local模式下用eclipse运行spark程序,然后我在运行spark程序时,发现控制台的日志颜色总是显示为黑色,哇,作为程序猿总有一种强迫症,发 ...
spark运行时出现Neither spark.yarn.jars nor spark.yarn.archive is set错误的解决办法（图文详解）
不多说,直接上干货! 福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 ...
Spark Shell启动时遇到<console>:14: error: not found: value spark import spark.implicits._ <console>:14: error: not found: value spark import spark.sql错误的解决办法（图文详解）
不多说,直接上干货! 最近,开始,进一步学习spark的最新版本.由原来经常使用的spark-1.6.1,现在来使用spark-2.2.0-bin-hadoop2.6.tgz. 前期博客 Spark ...
weblogic 12C 数据源配置出错的解决办法
驱动程序类名称: 11G 10.3.6与12G数据源配置有很大区别,整个一天才搞明白. 如有疑问可留言:http://www.cnblogs.com/endv/p/4110798.html 配 ...
spark累加器、广播变量
一言以蔽之: 累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只 ...
入门大数据---Spark累加器与广播变量
一.简介在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景: ...

随机推荐

第30月第11天 Xcode 9.0中新增的API版本检查@available
1.Xcode 9.0中新增的API版本检查@available https://www.jianshu.com/p/0a94baa6c3dd https://www.jianshu.com/p/b8 ...
Pollard-rho算法学习笔记
写在前面目录问题的提出生日悖论利用生日悖论来因数分解 Pollard-rho算法例题完成进度 1/3 问题的提出如何快速地找到一个自然数N的两个因数(除自己和1以外)? 首先想到的肯定是传 ...
django数据库迁移报错
当输入C:\Users\太阳之泪\b2p\my_pro>python manage.py makemigrations shop 出现一下情况然后输入C:\Users\太阳之泪\b2p\my_ ...
只有try和finally,没有catch
因为没有catch捕获异常,所以异常发生时,会将异常抛出,导致程序中止:在抛出之前会执行finally中的代码. 用于无法捕获处理异常,需要在程序结束之前进行善后处理的场景
Python规范
1.命名 Django文件命名小写+下划线类:驼峰 2.edit 执行环境 work direction 到当前项目目录 3.类要加注释 4.去数据库找数据时需要try捕获异常,防止数据库连接断掉 ...
CentOS 7.2 Ubuntu 18部署Rsync + Lsyncd服务实现文件实时同步/备份
发送端配置: 一.配置密钥 1. 主/从服务器之间启用基于密钥的身份验证.登录发送端服务器并用 " ssh-keygen " 命令生成公共或私有的密钥. 2. 使用 " ...
【原创】大数据基础之Logstash（4）高可用
logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: ...
shell 运算符章节笔记
// 运算符算数运算符关系运算符布尔运算符字符串运算符文件运算符 1.算数运算符 + - * / % = == != echo `expr 1 + 1`; echo `expr 1 - 2` ...
htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载
上次学了jsoup之后,发现一些动态生成的网页内容是无法抓取的,于是又学习了htmlunit,下面是抓取酷狗音乐与qq音乐链接的例子: 酷狗音乐: import java.io.BufferedInp ...
怎么在PDF上进行文字修改
文件相信大家不论是工作中还是在学习生活中都会有遇到,有时候我们会遇到PDF文件中的文字有时候会有错误的时候,这个时候就需要对修改PDF文件上的文字,那么具体要怎么做呢,PDF文件需要借助软件才可以编辑 ...

Spark累加器(Accumulator)陷阱及解决办法

自定义累加器

Spark累加器(Accumulator)陷阱及解决办法的更多相关文章

随机推荐

热门专题