Spark中自定义累加器Accumulator

1. 自定义累加器

自定义累加器需要继承AccumulatorParam，实现addInPlace和zero方法。

例1：实现Long类型的累加器

object LongAccumulatorParam extends AccumulatorParam[Long]{

  override def addInPlace(r1: Long, r2: Long) = {

    println(s"$r1\t$r2")

    r1 + r2

  }

  override def zero(initialValue: Long) = {

    println(initialValue)

    0

  }

  def main(args: Array[String]): Unit = {

    val sc = new SparkContext(new SparkConf().setAppName("testLongAccumulator"))

    val acc = sc.accumulator(0L, "LongAccumulator")

    sc.parallelize(Array(1L,2L,3L,4L,5L)).foreach(acc.add)

    println(acc.value)

    sc.stop()

  }

}

例2：定义Set[String]，可用于记录错误日志

object StringSetAccumulatorParam extends AccumulatorParam[Set[String]]{

  override def addInPlace(r1: Set[String], r2: Set[String]): Set[String] = { r1 ++ r2 }

  override def zero(initialValue: Set[String]): Set[String] = { Set() }

}

object ErrorLogHostSet extends Serializable {

  @volatile private var instanceErr: Accumulator[Set[String]] = null

  def getInstance(sc: SparkContext): Accumulator[Set[String]] = {

    if(null == instanceErr){

      synchronized{

        if(null == instanceErr){

          instanceErr = sc.accumulator(Set[String]())(StringSetAccumulatorParam)

        }

      }

    }

    instanceErr

  }

  def main(args: Array[String]): Unit = {

    val sc = new SparkContext(new SparkConf().setAppName("testSetStringAccumulator"))

    val dataRdd = sc.parallelize(Array("a2","c4","6v","67s","3d","45s","2c6","35d","7c8d9","34dc5"))

    val errorHostSet = getInstance(sc)

    val a = sc.accumulableCollection("a")

    dataRdd.filter(ele => {

      val res = ele.contains("d")

      if(res) errorHostSet += Set(ele)

      res

    }).foreach(println)

    errorHostSet.value.foreach(println)

    sc.stop()

  }

}

2. AccumulableCollection使用

object AccumulableCollectionTest {

  case class Employee(id: String, name: String, dept: String)

  def main(args: Array[String]): Unit = {

    val sc = new SparkContext(new SparkConf().setAppName("AccumulableCollectionTest").setMaster("local[4]"))

    val empAccu = sc.accumulableCollection(mutable.HashMap[String,Employee]())

    val employees = List(

      Employee("10001", "Tom", "Eng"),

      Employee("10002", "Roger", "Sales"),

      Employee("10003", "Rafael", "Sales"),

      Employee("10004", "David", "Sales"),

      Employee("10005", "Moore", "Sales"),

      Employee("10006", "Dawn", "Sales"),

      Employee("10007", "Stud", "Marketing"),

      Employee("10008", "Brown", "QA")

    )

    System.out.println("employee count " + employees.size)

    sc.parallelize(employees).foreach(e => {

      empAccu += e.id -> e

    })

    println("empAccumulator size " + empAccu.value.size)

    empAccu.value.foreach(entry =>

      println("emp id = " + entry._1 + " name = " + entry._2.name))

    sc.stop()

  }

}

Spark中自定义累加器Accumulator的更多相关文章

Spark中自定义累加器
通过继承AccumulatorV2可以实现自定义累加器. 官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html# ...
在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
pyspark中使用累加器Accumulator统计指标
评价分类模型的性能时需要用到以下四个指标最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 # evaluate model TP = labelAndPreds.f ...
Spark累加器(Accumulator)陷阱及解决办法
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变.累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数 ...
Spark笔记之累加器（Accumulator）
一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark St ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark2.0自定义累加器
Spark2.0 自定义累加器在2.0中使用自定义累加器需要继承AccumulatorV2这个抽象类,同时必须对以下6个方法进行实现: 1.reset 方法: 将累加器进行重置; abstract ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...

随机推荐

JAVA IO总结及socket简单实现
为了方便理解与阐述,先引入两张图: a.Java IO中常用的类在整个Java.io包中最重要的就是5个类和一个接口.5个类指的是File.OutputStream.InputStream.Writ ...
[LeetCode 题解]: Maximum Depth of Binary Tree
Given a binary tree, find its maximum depth. The maximum depth is the number of nodes along the long ...
Linux Qt 5.x 环境搭建
Step 1 从Qt官网下载 qt-opensource-linux-x64...run 在linux命令行中给予文件可执行权限 $ chmod u+x qt-opensource-linux...r ...
linux下PHP5.5的安装【oci8,pdo-oci,memcache,Zend OPCache扩展】
最近一段时间学习了一下PHP,用CI做了一个小项目,为了开发方便,本地windows下使用了集成环境XAMPP,不过当把项目部署到linux上时,确实遇到了很多问题,下面把我在linux上安装php的 ...
BP神经网络研究（一）
本随笔参考文章:<BP神经网络详解与实例>(链接: https://pan.baidu.com/s/1e2niIvD9KtLXEqwXtgdXxw 密码: vb8d) 本随笔原创,转发请注 ...
一文读懂加固apk的开发者是怎么想的
有人说加固会明显拖慢启动速度,同时造成运行卡顿,严重降低用户体验,而且加固是完全可以脱壳的,只需要pc配合进行断点调试就能抓到解密后的dex文件,加固并没有所说的那么安全. 但是为什么还有一大批开发者 ...
691. Stickers to Spell Word
We are given N different types of stickers. Each sticker has a lowercase English word on it. You wou ...
Linux下对于makefile的理解
什么是makefile呢?在Linux下makefile我们可以把理解为工程的编译规则.一个工程中源文件不计数,其按类型.功能.模块分别放在若干个目录中,makefile定义了一系列的规则来指定,那些 ...
低版本php对json的处理
由于低版本php(php5以下)没有json_encode和json_decode 所以有下面函数实现 function json_encode($data) { switch ($type = ge ...
Netty 5 获取客户端IP（非HTTP）
使用Netty 5.0.0.Alpha2时,想知道客户端的ip以区分客户端,发现网上都是通过解析HTTP头域完成的,这里提供一种比较简单的方法. System.out.println("Cl ...

Spark中自定义累加器Accumulator

1. 自定义累加器

2. AccumulableCollection使用

Spark中自定义累加器Accumulator的更多相关文章

随机推荐

热门专题