spark算子篇-aggregate 系列
aggregate
aggregate 是比较常用的 行动 操作,不是很好懂,这里做个解释。
aggregate(zeroValue, seqOp, combOp)
zeroValue 是一个初始值,自己根据实际情况进行设定;
首先我们知道 RDD 是被分区,然后并行操作的;
seqOp 是对每个分区进行聚合,每个分区聚合结果作为 combOp 的输入;
combOp 对分区聚合结果再次进行聚合;
seqOp 和 combOp 必须有且仅有2个参数
示例如下
seqOp:
把初始值设为 0,累加就是求和
把初始值设为 0,每次加1就是计数;然后 迭代 初始值
combOp:
每个分区的聚合结果为两部分(sum,count)
在初始值的基础上,把每个分区的 sum 相加,count 相加
迭代初始值
seqOp = (lambda x, y: (x[0] + y, x[1] + 1)) ## x 为 初始值,y 是 list 中的单个元素
combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1])) ## x 为 初始值,y 是 seqOp 单个分区的聚合结果
sc.parallelize([1, 2, 3, 4]).aggregate((0, 0), seqOp, combOp) # (10, 4) ## 初始值变成 (3, 0), 分一个区,seqOp 聚合结果加 3, combOp 聚合结果加 3, 总共加 6,即 16
sc.parallelize([1, 2, 3, 4], 1).aggregate((3, 0), seqOp, combOp) # (16, 4)
## 初始值变成 (3, 0), 分两个区,seqOp 每个分区聚合结果加 3,共加 6,combOp 聚合结果加 3, 总共加 9,即 19
sc.parallelize([1, 2, 3, 4], 2).aggregate((3, 0), seqOp, combOp) # (19, 4) sc.parallelize([1, 2, 3, 4], 4).aggregate((3, 0), seqOp, combOp) # (25, 4)
sc.parallelize([1, 2, 3, 4]).aggregate((3, 0), seqOp, combOp) # 如果不写分区,默认为 cpu 核数个分区,即 4 核就分 4 个区
计算过程如下

aggregate 是针对 序列 进行操作的,还有一个 aggregateByKey 是针对 (key - value 对) 中的 key 进行 aggregate 操作的
spark算子篇-aggregate 系列的更多相关文章
- spark算子之Aggregate
Aggregate函数 一.源码定义 /** * Aggregate the elements of each partition, and then the results for all the ...
- Spark算子篇 --Spark算子之aggregateByKey详解
一.基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值. seqFunc代表combine的聚合逻 ...
- Spark算子篇 --Spark算子之combineByKey详解
一.概念 rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:& ...
- spark算子篇-repartition and coalesce
我们知道 RDD 是分区的,但有时候我们需要重新设置分区数量,增大还是减少需要结合实际场景,还有可以通过设置 RDD 分区数来指定生成的文件的数量 重新分区有两种方法:repartition and ...
- (转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
- Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
- Spark算子总结(带案例)
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
- 【强烈强烈推荐】《ORACLE PL/SQL编程详解》全原创(共八篇)--系列文章导航
原文:[强烈强烈推荐]<ORACLE PL/SQL编程详解>全原创(共八篇)--系列文章导航 <ORACLE PL/SQL编程详解> 系列文章目录导航 ——通过知识共享树立个人 ...
- UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现 测试数据 java代码 package com.hzf.spark.study; import ...
随机推荐
- Javascript引擎的单线程机制和setTimeout执行原理阐述
工作中使用setTimeout解决了一个问题,于是对setTimeout的相关资料整理了下,以及对js引擎执行的原理一并整理了下,希望能给码农们一些帮助.若发现有错的地方大家及时指出,共同学习进步. ...
- 主线程 Looper.loop() 死循环为何不会ANR
先看下 ActivityThread 中的这段代码: 而 loop() 方法中,存在一个死循环: public static void loop() { ... ... ... for (;;) { ...
- 使用root配置的hadoop启动时报错
一.报错信息: Starting namenodes on [master] ERROR: Attempting to operate on hdfs namenode as root ...
- python接口自动化:python3.6中import Crypto.Hash报错的解决方案
一:问题 python3.6中算法加密引入包Crypto报错,即便安装了: pip install crypto pip install pycrypto pip install pycryptodo ...
- 【好书推荐】9、安卓Andorid编程吐血整理100+本
点开即可
- PL/SQL中文乱码问题
本人的使用情况是: 笨既没有安装Oracle,配置了PLSQL,在查询含有中文数据的时候遇到了查询的数据中有中文乱码的问题,中文显示为???,并且软件的某些提示也会出现. 先进行查询确认编码: ...
- RestAssured
配置MAVEN <dependency> <groupId>io.rest-assured</groupId> <artifactId>rest-ass ...
- Linux版本
1.内核:Linux内核Kernel目前最新稳定版 3.4 http://www.kernel.org/ 2.发行版本:是一些厂商将Linux系统内核与应用软件和文档包装起来,并提供一些安装界面和系 ...
- npm install --save 和 npm install -d的区别
npm install -d 就是npm install --save-dev npm insatll -s 就是npm install --save 以前一直在纠结一个npm安装的包依赖管理的问题. ...
- delphi怎么一次性动态删除(释放)数个动态创建的组件?
比如procedure TForm1.Button1Click(Sender: TObject);vari:Integer;lbl: TLabel;beginfor i:=1 to 3 dobegin ...