Spark算子 - aggregate

释义

将每个partition内元素进行聚合，然后将每个partition的聚合结果进行combine，得到最终聚合结果。最终结果允许跟原始RDD类型不同

方法签名如下：

def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U = withScope {

  ...

}

zeroValue: 每个partition的聚合初始值
seqOp: sequence operation，对partition内数据进行映射，最终1个partition只有1个结果。输入类型为U跟T，输出为U，即每次操作结果要跟zeroValue类型一致
- 第一次操作时，U为zeroValue（初始值），第一次操作之后输出结果U，作为下一次操作的U
- 第二次操作及之后操作时，U为前一次操作输出结果，而不再是zeroValue
combOp: combine operation，对每个partition的结果进行combine操作。输入类型为U跟U，输出为U，即输入类型与输出类型一致。最终结果为：U类型的RDD

案例

统计所有单词总长度，单词的总个数

object TestAggregate {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("TestAggregate").setMaster("local[1]")

    val sc = new SparkContext(conf)

    val data = Array("hello", "world", "simple", "app", "is", "good", "good", "world")

    val result: (Int, Int) = sc.parallelize(data, 2) // 当前设置为2个partition

      .aggregate((0, 0))( //①

        (v: (Int, Int), str: String) => (v._1 + str.length, v._2 + 1), // ②

        (v1: (Int, Int), v2: (Int, Int)) => (v1._1 + v2._1, v1._2 + v2._2) // ③

      )

    println(result)

  }

}

输出

(34,8)

解释

在每个partition内传入初始值(0, 0)，如①处
之后每个partition内开始进行聚合计算，如②处。每个partition内的单词长度累加，放入结果二元组的第一位；每处理一个单词，结果二元组的第二位加一，即单词个数加一
每个partition的结果二元组再进行汇总操作，如③处。最终形成一个二元组，第一位是所有字母的总长度，第二位是所有单词的总个数

Spark算子 - aggregate的更多相关文章

(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
spark算子集锦
Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新. Spark 算子按照功能分,可以分成两大类:transform 和 action.Transform 不 ...
Spark算子使用
一.spark的算子分类转换算子和行动算子转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行.在spark中每一个算子在计算之后就会产生一个新的RDD. 二.在编写sp ...

随机推荐

centos7 常规修改信息（比较杂的）持续更新
修改主机名临时修改主机名 hostname syscal 永久修改主机名,修改后要重启系统 vi /etc/hostname 修改本地hosts 修改本地hosts,与windows的本地的host ...
深入理解Java虚拟机之自己编译JDK
题外话最近在阅读<深入理解Java虚拟机>,其中有一小节实战是自己编译JDK,实际操作下来后遇到问题不少,为此特地记录,也希望可以给大家带来一些参考! 前置准备平台及工具:Window ...
利用quake捡洞
quake一开漏洞全靠捡定位资产通过主域名定位子域名资产 domain:"target.com" 通过C段定位资产 ip: "1.1.1.1/24" 通过证 ...
阅读阿里Java开发手册记录
概述在阅读完阿里Java开发手册(嵩山版)后,发现自己在开发过程中有一些没有按照规范开发的情况,这里将容易忘记的规范记录下来,并且添加自己的理解,一方面方便自己巩固记忆,另一方面希望对其他同学能够提 ...
YC-Framework版本更新:V1.0.5
分布式微服务框架:YC-Framework版本更新V1.0.5!!! 本次版本V1.0.5更新所有模块依赖调整: 部分问题修复: Nacos模块化: Eureka模块化: 支持SOA(即WebSer ...
Java传递变量和对象的区别
传递对象 public class Demo03 { //引用传递:(实际上还是值传递)对于引用数据类型来说,传递的则是地址的副本(对象的地址).但由于地址副本和原来的类似,因此传递过去后形参也只想同 ...
[硬拆解]拆解一个USB转CAN总线设备-PCAN-USB
介绍 PCAN-USB适配器可以简单地连接到CAN网络.其紧凑的塑料外壳使它适合移动应用.光电去耦版隔离了PC和CAN端之间高达500伏特的电流隔离. 该包还提供了Windows的CAN monito ...
Centos 7 安装LAMP以及在Apache上安装positiveSSL。
简介 LAMP(linux , Apache, mysql , php)是集成动态网站经常使用的一套开源软件,实际包含linux操作系统,Apache web服务器,mysql(mariadb 分支) ...
不难懂------react---Immutable的基本使用
一.Immutable简介 Immutable Data 就是一旦创建,就不能再被更改的数据.对 Immutable 对象的任何修改或添加删除操作都会返回一个新的 Immutable 对象.Immut ...
HashMap相关
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] ta ...

Spark算子 - aggregate

释义

案例

输出

解释

Spark算子 - aggregate的更多相关文章

随机推荐

热门专题