Spark算子之aggregateByKey详解

一、基本介绍

rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值

3代表每次分完组之后的每个组的初始值。

seqFunc代表combine的聚合逻辑

每一个mapTask的结果的聚合成为combine

combFunc reduce端大聚合的逻辑

ps:aggregateByKey默认分组

二、源码

三、代码

from pyspark import SparkConf,SparkContext

from __builtin__ import str

conf = SparkConf().setMaster("local").setAppName("AggregateByKey")

sc = SparkContext(conf = conf)

rdd = sc.parallelize([(,),(,),(,),(,),(,),(,)],)

def f(index,items):

    print "partitionId:%d" %index

    for val in items:

        print val

    return items

rdd.mapPartitionsWithIndex(f, False).count()

def seqFunc(a,b):

    print "seqFunc:%s,%s" %(a,b)

    return max(a,b) #取最大值

def combFunc(a,b):

    print "combFunc:%s,%s" %(a ,b)

    return a + b #累加起来

'''

    aggregateByKey这个算子内部肯定有分组

'''

aggregateRDD = rdd.aggregateByKey(, seqFunc, combFunc)

rest = aggregateRDD.collectAsMap()

for k,v in rest.items():

    print k,v

sc.stop()

四、详细逻辑

PS：seqFunc函数 combine篇。

3是每个分组的最大值，所以把3传进来，在combine函数中也就是seqFunc中第一次调用 3代表a,b即1,max(a,b)即3 第二次再调用则max(3.1)中的最大值3即输入值，2即b值所以结果则为(1,3)

底下类似。combine函数调用的次数与分组内的数据个数一致。

combFunc函数 reduce聚合

在reduce端大聚合，拉完数据后也是先分组，然后再调用combFunc函数

五、结果

Spark算子之aggregateByKey详解的更多相关文章

Spark算子篇 --Spark算子之aggregateByKey详解
一.基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值. seqFunc代表combine的聚合逻 ...
Spark算子篇 --Spark算子之combineByKey详解
一.概念 rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:& ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
Spark log4j日志配置详解(转载)
一.spark job日志介绍 spark中提供了log4j的方式记录日志.可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 l ...
Spark中的分区方法详解
转自:https://blog.csdn.net/dmy1115143060/article/details/82620715 一.Spark数据分区方式简要在Spark中,RDD(Resilien ...
Spark技术内幕: Shuffle详解（一）
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群:Master通过借助ZK,可以简单的实现HA:而应用 ...
Spark操作—aggregate、aggregateByKey详解
https://blog.csdn.net/u013514928/article/details/56680825 1. aggregate函数将每个分区里面的元素进行聚合,然后用combine函数 ...
Spark 核心概念 RDD 详解
RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持 ...
Spark的运行模式详解
Spark的运行模式是多种多样的,那么在这篇博客中谈一下Spark的运行模式一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将S ...

随机推荐

twisted 学习笔记一：事件循环
from twisted.internet import reactor import time def printTime(): print "Current time is", ...
前端模板学习bootstrap
前端最主要的工作是布局,呈现数据,这与后台处理数据的工作迥然不同,所以要多看别人写的好的模板.但是别人用到的css,js文件和我们的都不太相同,所以很多模板不能拿过来直接用,要经过简单的修改才能使用, ...
4、css盒模型和文本溢出
4:css盒模型和文本溢出学习目标 1.认识盒子模型 2.盒子模型的组成部分 3.学习盒子模型的相关元素 margin padding 4.文本溢出相关的属性一.css属性和属性值的定义盒模型是 ...
理解 CALayer ContentsCenter 属性
http://aaronzjp.cn/2016/12/01/iOS-CALayer/ 这个属性和android 的 .9 文件类似,定义了图片的拉伸范围:例子中明显是四个角不拉伸,对于需要做背景,co ...
.NET Core开发日志——Middleware
熟悉ASP.NET架构的开发者一定对于HTTP Modules与HTTP Handlers不陌生.两者的作用主要是对网络请求执行特定的处理工作.而在.NET Core中,它们都被Middleware( ...
TIC Read Status此类网络活动提醒隐藏
这个方法会使得NSLog输出失效,printf正常工作不推荐使用,应该是很多操作均被关闭,需要详细了解该参数意义 OS_ACTIVITY_MODE = disable
创建结点与分配内存 Function to create a Node. Allocates memory for a new node. 主动申请内存链表指针的写法
Self Referential Data Structure in C - create a singly linked list http://www.how2lab.com/programmin ...
mysql与redis在各种情况下性能对比
数据表结构 CREATE TABLE `jx_goods_test` ( `id` int(11) NOT NULL AUTO_INCREMENT, `goods_name` varchar(100) ...
[development][dpdk][hugepage] 为不同的结点分配不同大小的大页内存
这个事来自dpdk, 所以, 先参考. http://dpdk.org/doc/guides/linux_gsg/sys_reqs.html 当前, 假设你已经读过上边内容, 知道大页内存时候, dp ...
[algorithm][security] 模糊哈希（转）
modsecurity中用到: http://ssdeep.sourceforge.net/ 原文:http://www.xuebuyuan.com/1536438.html 最近看一篇paper, ...

Spark算子之aggregateByKey详解

Spark算子之aggregateByKey详解的更多相关文章

随机推荐

热门专题