Spark中自定义累加器

通过继承AccumulatorV2可以实现自定义累加器。

官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators

下面是我自己写的一个统计卡种数量的案例。

package com.shuai7boy.myscalacode

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.util.AccumulatorV2

case class Card(var card1Count: Int, var card2Count: Int)

class CalcCardCount extends AccumulatorV2[Card, Card] {

  var result = new Card(, )

  /** *

   * 判断，这个要和reset设定值一致

   *

   * @return

   */

  override def isZero: Boolean = {

    result.card1Count ==  && result.card2Count ==

  }

  /** *

   * 复制一个新的对象

   *

   * @return

   */

  override def copy(): AccumulatorV2[Card, Card] = {

    val newCalcCardCount = new CalcCardCount()

    newCalcCardCount.result = this.result

    newCalcCardCount

  }

  /** *

   * 重置每个分区的数值

   */

  override def reset(): Unit = {

    result.card1Count =

    result.card2Count =

  }

  /**

   * 每个分区累加自己的数值

   *

   * @param v

   */

  override def add(v: Card): Unit = {

    result.card1Count += v.card1Count

    result.card2Count += v.card2Count

  }

  /** *

   * 合并分区值，求得总值

   *

   * @param other

   */

  override def merge(other: AccumulatorV2[Card, Card]): Unit = other match {

    case o: CalcCardCount => {

      result.card1Count += o.result.card1Count

      result.card2Count += o.result.card2Count

    }

  }

  //返回结果

  override def value: Card = result

}

object CardCount {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("calcCardCountDemo").setMaster("local")

    val sc = new SparkContext(conf)

    val cc = new CalcCardCount

    sc.register(cc)

    val cardList = sc.parallelize(List[String]("card1 1", "card1 3", "card1 7", "card2 5", "card2 2"), )

    val cardMapRDD = cardList.map(card => {

      var cardInfo = new Card(, )

      card.split(" ")() match {

        case "card1" => cardInfo = Card(card.split(" ")().toInt, )

        case "card2" => cardInfo = Card(, card.split(" ")().toInt)

        case _ => Card(, )

      }

      cc.add(cardInfo)

    })

    cardMapRDD.count() //执行action，触发上面的累加操作

    println("card1总数量为:" + cc.result.card1Count + ",card2总数量为:" + cc.result.card2Count)

  }

}

打印结果是：

card1总数量为:,card2总数量为:

通过上面代码，就可以同时统计两个变量的值了，当然如果需要更多，可以扩展。默认的累加器只实现了一个。

Spark中自定义累加器的更多相关文章

Spark中自定义累加器Accumulator
1. 自定义累加器自定义累加器需要继承AccumulatorParam,实现addInPlace和zero方法. 例1:实现Long类型的累加器 object LongAccumulatorPara ...
在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark2.0自定义累加器
Spark2.0 自定义累加器在2.0中使用自定义累加器需要继承AccumulatorV2这个抽象类,同时必须对以下6个方法进行实现: 1.reset 方法: 将累加器进行重置; abstract ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark笔记之累加器（Accumulator）
一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark St ...

随机推荐

prometheus配置pushgateway功能测试
一.环境: 1.prometheus服务器ip:192.168.0.208 2.node-exporter客户机ip:192.168.0.202 二.测试设计考虑: pushgateway类似一台信息 ...
利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...
如何在Spring Boot应用启动之后立刻执行一段逻辑
1. 前言不知道你有没有接到这种需求,项目启动后立马执行一些逻辑.比如简单的缓存预热,或者上线后的广播之类等等.如果你使用 Spring Boot 框架的话就可以借助其提供的接口CommandLin ...
JAVASE(七)面向对象：封装性(特性之一)、构造器、属性、关键字
个人博客网:https://wushaopei.github.io/ (你想要这里多有) 一.封装性 1.为什么要使用封装性? 创建对象以后,可以通过对象.属性名的方法进行赋值.只能限制数据的类 ...
Java实现 LeetCode 398 随机数索引
398. 随机数索引给定一个可能含有重复元素的整数数组,要求随机输出给定的数字的索引. 您可以假设给定的数字一定存在于数组中. 注意: 数组大小可能非常大. 使用太多额外空间的解决方案将不会通过测试 ...
Java实现 LeetCode 386 字典序排数
386. 字典序排数给定一个整数 n, 返回从 1 到 n 的字典顺序. 例如, 给定 n =1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] . 请尽可能的优化算法的时 ...
Java实现 LeetCode 208 实现 Trie (前缀树)
208. 实现 Trie (前缀树) 实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作. 示例: Trie trie = new Trie() ...
Arrays.binarySearch和Collections.binarySearch的详细用法
概述 binarysearch为在指定数组中查找指定值得索引值,该值在范围内找得到则返回该值的索引值,找不到则返回该值的插入位置,如果该值大于指定范围最大值则返回-(maxlength+1),而: i ...
第八届蓝桥杯JavaA组省赛真题
解题代码部分来自网友,如果有不对的地方,欢迎各位大佬评论题目1.迷宫题目描述 X星球的一处迷宫游乐场建在某个小山坡上. 它是由10x10相互连通的小房间组成的. 房间的地板上写着一个很大的字母. ...
Java实现分割矩形
给定平面内平行于坐标轴的一个矩形,从矩形内选择一些点,从这些点向右和向上各射出一条射线, 请问:这些射线将矩形分成了多少份. 数据格式: 输入的第一行包含两个整数x, y,表示矩形是由(0, 0), ...

Spark中自定义累加器

Spark中自定义累加器的更多相关文章

随机推荐

热门专题