Spark算子 - aggregateByKey

释义

aggregateByKey逻辑类似 aggregate，但 aggregateByKey针对的是PairRDD，即键值对 RDD，所以返回结果也是 PairRDD，结果形式为：(各个Key, 同样Key对应的Value聚合后的值)
aggregateByKey先将每个partition内元素进行分组计算，然后将每个partition的计算结果进行combine，得到最终聚合结果。且最终结果允许跟原始RDD类型不同

方法签名如下：

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] = self.withScope {

    ...

}

zeroValue: 每个partition的聚合初始值
seqOp: sequence operation，对partition内数据进行映射，最终1个partition只有1个结果。输入类型为U跟V，输出为U，即每次操作结果要跟zeroValue类型一致
- 第一次操作时，U为zeroValue（初始值），第一次操作之后输出结果U，作为下一次操作的U
- 第二次操作及之后操作时，U为前一次操作输出结果，而不再是zeroValue
combOp: combine operation，对每个partition的结果进行combine操作。输入类型为U跟U，输出为U，即输入类型与输出类型一致，最终结果为：(K, U)类型的PairRDD

案例

统计单词个数 WordCount

object TestAggregateByKey {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("TestAggregateByKey").setMaster("local[1]")

    val sc = new SparkContext(conf)

    val data = Array("hello world", "simple app is good", "good world")

    val result: Array[(String, Int)] = sc.parallelize(data, 1)

      .flatMap(_.split(" "))

      .map((_, 1))

      .aggregateByKey(0)(

        (cnt1: Int, cnt2: Int) => cnt1 + cnt2,

        (partitionAllCnt1: Int, partitionAllCnt2: Int) => partitionAllCnt1 + partitionAllCnt2

      )

      .collect()

    result.foreach(println)

  }

}

输出

(is,1)

(app,1)

(simple,1)

(hello,1)

(good,2)

(world,2)

解释

先将每个词map成 (词语, 1)的形式
调用aggregateByKey之后，每个partition内已经按key进行分组了，之后传入初始值0作为每个组的个数，接着进行 cnt1 + cnt2，就是同个key内进行1+1操作，比如单词good 有两个value都是1，此时单词good的组内，计算的值即为2
所有partition的结果进行计算

Spark算子 - aggregateByKey的更多相关文章

对spark算子aggregateByKey的理解
案例 aggregateByKey算子其实相当于是针对不同“key”数据做一个map+reduce规约的操作. 举一个简单的在生产环境中的一段代码有一些整理好的日志字段,经过处理得到了RDD类型为( ...
spark-聚合算子aggregatebykey
spark-聚合算子aggregatebykey Aggregate the values of each key, using given combine functions and a neutr ...
Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...

随机推荐

Python中单下划线与双下划线用法总结
看mentor的脚本时,遇到self._item.callspec.getparam('')语句,理解起来比较困难,找到一篇文章,记录的比较详细,特别记录一下,以备复习. 附链接地址:http://w ...
python @property用法（转载）
偶然碰到一篇讲解 @property 比较清晰的文章记录下来日常复习 # @property'''@property是python的一种装饰器,是用来修饰方法的作用:我们可以使用@propert ...
SQLAlchemy（十）
ORM操作在实际项目中的应用非常多,涉及到的框架也是根据不同的项目有不同的处理模块,不过操作流程和步骤都是大同小异基本没有什么太大变化,唯一需要注意的就是在实际操作过程中你要使用的ORM框架的处理性能 ...
C# 使用vs2017 创建类时注意点
1.创建新类后,在其他类无法new 这个新创建的类 ,怎么回事? 原因很简单,创建类时不带修饰符,默认是被保护的类上图为创建类后的默认代码 ,没有修饰符 ,在其他类中无法引入改类的命名空间,会显示找 ...
java 代理模式总结
1.前言最近舍友去面试遇到了关于java代理模式的问题. 我虽然知道怎么使用,但是没有做过正经的总结,因此有了这篇随笔,好好总结一下三大代理模式底层原理. 事实上,在开发项目的时候,基本用不上代理, ...
Word2010邮件合并制作成绩单
原文链接: https://www.toutiao.com/i6488941003494392333/ 准备数据源: 选择"邮件"选项卡,"开始邮件合并"功能组 ...
antd的table组件设置Column的width列宽度不生效问题
超长连续字段(长数字和长单词) 破坏表格布局的问题(即使你指定了列的宽度也会被挤开),之前组件内默认加过 word-break: break-word; 去纠正此类布局,又会引起其他的问题. 所以最好 ...
【Java】注解Annotation
注解 Annotation 理解Annotation jdk 5.0 新增的功能 Annotation 其实就是代码里的特殊标记, 这些标记可以在编译, 类加载, 运行时被读取, 并执行相应的处理.通 ...
Python与Javascript相互调用超详细讲解（2022年1月最新）（一）基本原理 Part 1 - 通过子进程和进程间通信（IPC）
TL; DR 适用于: python和javascript的runtime(基本特指cpython[不是cython!]和Node.js)都装好了副语言用了一些复杂的包(例如python用了nump ...
vue.config.js报错cannot set property "preserveWhitespace" of undefined
vue.config.js报错cannot set property "preserveWhitespace" of undefined 最近在项目中配置webpack,由于vue ...

Spark算子 - aggregateByKey

释义

案例

输出

解释

Spark算子 - aggregateByKey的更多相关文章

随机推荐

热门专题