spark算子篇-aggregate 系列

aggregate

aggregate 是比较常用的行动操作，不是很好懂，这里做个解释。

aggregate(zeroValue, seqOp, combOp)

zeroValue 是一个初始值，自己根据实际情况进行设定；

首先我们知道 RDD 是被分区，然后并行操作的；

seqOp 是对每个分区进行聚合，每个分区聚合结果作为 combOp 的输入；

combOp 对分区聚合结果再次进行聚合；

seqOp 和 combOp 必须有且仅有2个参数

示例如下

seqOp：

把初始值设为 0，累加就是求和

把初始值设为 0，每次加1就是计数；然后迭代初始值

combOp：

每个分区的聚合结果为两部分（sum，count）

在初始值的基础上，把每个分区的 sum 相加，count 相加

迭代初始值

seqOp = (lambda x, y: (x[0] + y, x[1] + 1))     ## x 为 初始值，y 是 list 中的单个元素

combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))  ## x 为 初始值，y 是 seqOp 单个分区的聚合结果

sc.parallelize([1, 2, 3, 4]).aggregate((0, 0), seqOp, combOp)       # (10, 4)

## 初始值变成 (3, 0), 分一个区，seqOp 聚合结果加 3， combOp 聚合结果加 3， 总共加 6，即 16

sc.parallelize([1, 2, 3, 4], 1).aggregate((3, 0), seqOp, combOp)    # (16, 4)

## 初始值变成 (3, 0), 分两个区，seqOp 每个分区聚合结果加 3，共加 6，combOp 聚合结果加 3， 总共加 9，即 19

sc.parallelize([1, 2, 3, 4], 2).aggregate((3, 0), seqOp, combOp)    # (19, 4)

sc.parallelize([1, 2, 3, 4], 4).aggregate((3, 0), seqOp, combOp)    # (25, 4)

sc.parallelize([1, 2, 3, 4]).aggregate((3, 0), seqOp, combOp)    # 如果不写分区，默认为 cpu 核数个分区，即 4 核就分 4 个区

计算过程如下

aggregate 是针对序列进行操作的，还有一个 aggregateByKey 是针对 (key - value 对) 中的 key 进行 aggregate 操作的

spark算子篇-aggregate 系列的更多相关文章

spark算子之Aggregate
Aggregate函数一.源码定义 /** * Aggregate the elements of each partition, and then the results for all the ...
Spark算子篇 --Spark算子之aggregateByKey详解
一.基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值. seqFunc代表combine的聚合逻 ...
Spark算子篇 --Spark算子之combineByKey详解
一.概念 rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:& ...
spark算子篇-repartition and coalesce
我们知道 RDD 是分区的,但有时候我们需要重新设置分区数量,增大还是减少需要结合实际场景,还有可以通过设置 RDD 分区数来指定生成的文件的数量重新分区有两种方法:repartition and ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
【强烈强烈推荐】《ORACLE PL/SQL编程详解》全原创（共八篇）--系列文章导航
原文:[强烈强烈推荐]<ORACLE PL/SQL编程详解>全原创(共八篇)--系列文章导航 <ORACLE PL/SQL编程详解> 系列文章目录导航 ——通过知识共享树立个人 ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...

随机推荐

安装java1.8.0
安装java 1.删除自带jdk rpm -e --nodeps `rpm -qa | grep java` 2.查看yum库中有哪些jdk版本. yum search java | grep jdk ...
python-获取程序的路径
python获取当前路径 import os,sys 使用sys.path[0].sys.argv[0].os.getcwd().os.path.abspath(file).os.path.realp ...
ThinkPHP3.2版本对于Model的使用
THinkphp3.2的改动很大,特别是应用了命名空间的概念,这个命名空间很类似于.NET和Java的命名空间,通过引用就可以调用,由于前期一直是搞.NET,对命名空间自认为是比较了解的,在没有完全理 ...
线程系列3--Java线程同步通信技术
上一篇文章我们讲解了线程间的互斥技术,使用关键字synchronize来实现线程间的互斥技术.根据不同的业务情况,我们可以选择某一种互斥的方法来实现线程间的互斥调用.例如:自定义对象实现互斥(sync ...
［转］java常量池理解总结
一.相关概念什么是常量用final修饰的成员变量表示常量,值一旦给定就无法改变!final修饰的变量有三种:静态变量.实例变量和局部变量,分别表示三种类型的常量. Class文件中的常量池在Clas ...
legend3---6、legend3爬坑杂记
legend3---6.legend3爬坑杂记一.总结一句话总结: 学东西不做项目也学不到深处,其实也就是学了没理解透, 1.lavarel中模型关联可以用的实质是? lavarel在数据库中插入 ...
JScript 对字符串、数组处理的常用方法
1.anchor 方法在对象中的指定文本两端放置一个有 NAME 属性的 HTML 锚点. strVariable.anchor(anchorString) var strVariable ...
ValueStack对象
ValueStack, 即值栈对象. 值栈对象: 是整个struts数据存储的核心,或者叫中转站. 用户每次访问struts的action,都会创建一个Action对象.值栈对象.ActionCont ...
安卓之Android.mk编写
题记:编译环境可以参考https://www.cnblogs.com/ywjfx/p/9960817.html 不管是写C还是java,我想所有的程序员都经历过HelloWorld程序的编写,现在让我 ...
kubernetes排错系列：（一）、机房搬迁导致的节点NotReady
说下背景: 上周六机房进行搬迁,我所在的网段的机器都重启了一遍.重启之后kubernetes集群不正常.如下排查过程: # 查看节点信息 kubectl describe nodes cbov10- ...

spark算子篇-aggregate 系列

aggregate

spark算子篇-aggregate 系列的更多相关文章

随机推荐

热门专题