groupByKey、reduceByKey、aggregateByKey、foldByKey、combineByKey的联系和区别

groupByKey根据key对value进行分组，默认没有预聚合

combineByKeyWithClassTag[CompactBuffer[V]](

      createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)

reduceByKey分区内和分区间的计算逻辑一致，第一个Key的值不做任何计算，直接返回，在分区内和第二个key的值做计算

combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)

aggregateByKey分区内和内区间的计算逻辑可以不同，第一个key的值和初始值做分区内计算

combineByKeyWithClassTag[U]((v: V) => cleanedSeqOp(createZero(), v),

      cleanedSeqOp, combOp, partitioner)

foldByKey分区内和分区间的逻辑一致，第一个key的值和初始值做分区内计算

combineByKeyWithClassTag[V]((v: V) => cleanedFunc(createZero(), v),

      cleanedFunc, cleanedFunc, partitioner)

combineByKey分区内和内区间的计算逻辑可以不同，对分区内第一个key的value进行格式转换

combineByKeyWithClassTag(createCombiner, mergeValue, mergeCombiners,

      partitioner, mapSideCombine, serializer)(null)

总之：这五个方法底层调的是同一个方法，只不过是参数不同而已！

groupByKey、reduceByKey、aggregateByKey、foldByKey、combineByKey的联系和区别的更多相关文章

（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark
groupByKey,reduceByKey,sortByKey算子视频教程: 1.优酷 2. YouTube 1.groupByKey groupByKey是对每个key进行合并操作,但只生成一个 ...
[Spark RDD_add_1] groupByKey & reduceBykey 的区别
[groupByKey & reduceBykey 的区别] 在都能实现相同功能的情况下优先使用 reduceBykey Combine 是为了减少网络负载 1. groupByKey 是没有 ...
Spark 学习笔记之 distinct/groupByKey/reduceByKey
distinct/groupByKey/reduceByKey: distinct: import org.apache.spark.SparkContext import org.apache.sp ...
Spark中groupBy groupByKey reduceByKey的区别
groupBy 和SQL中groupby一样,只是后面必须结合聚合函数使用才可以. 例如: hour.filter($"version".isin(version: _*)).gr ...
【转】Spark是基于内存的分布式计算引擎
Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称.然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关.在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序 ...
浅谈Spark应用程序的性能调优
浅谈Spark应用程序的性能调优 :http://geek.csdn.net/news/detail/51819 下面列出的这些API会导致Shuffle操作,是数据倾斜可能发生的关键点所在 1. g ...
Spark(四)【RDD编程算子】
目录测试准备一.Value类型转换算子 map(func) mapPartitions(func) mapPartitions和map的区别 mapPartitionsWithIndex(func ...
Spark学习记录
SpringStrongGuo Hadoop与Spark Hadoop主要解决,海量数据的存储和海量数据的分析计算. Spark主要解决海量数据的分析计算. Spark运行模式 1)Local:运行在 ...
spark中产生shuffle的算子
Spark中产生shuffle的算子作用算子名能否替换,由谁替换去重 distinct() 不能聚合 reduceByKey() groupByKey groupBy() groupByKe ...
Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务.还记得之前的文章<Spark RDD详解>中提到,Spark ...

随机推荐

爬取精美壁纸5w张，爱了爱了
近日接到一个需求--爬取某应用商店所有在线销售壁纸,这个任务起初让我惊呆了.因为上级没有给我解决风控问题,若爬取在售资源被人家厂商追责怎么办?若造成人家服务器出问题怎么办?问的时候上级含糊其辞,唉!其 ...
JZOJ 7377.欢乐豆
$\text{Problem}$ 有一个有向完全图,所有的 $u$ 到 $v$ 的边权为 $a_u$ 修改 $m$ 此有向边边权,求最终图上两两点对的最短路之和 \(1\le n ...
.net mvc 权限验证 Filter（过滤器）
一.知识了解 Asp.Net MVC提供了以下几种默认的Filter: 大家注意一点,Asp.Net MVC提供的ActionFilterAttribute默认实现了IActionFilter和IRe ...
WHAT IS PPM Encoder ?
About PPM Encoder The PPM encoder allows to encode up to 8 PWM (pulse width modulated) signals into ...
map方法整理数据，接口返回值进行处理
整理前: //map方法使thumb加上域名 --> var data =[ { id: "11", title: "新车小程序title1", thum ...
linux 信号未决信号集和屏蔽信号集
有的地方,将屏蔽又叫阻塞? 在虚拟地址空间中,内核区的PCB中有两个64位的值(集合),分别表示64个信号的未决状态(未被处理)和屏蔽与否 kill -l 可以查看linux中的所有信号,共64个 ...
python的常见问题解决
1.python库下载安装慢:用清华镜像 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tun ...
wordpress宕机原因及处理方法
2020年7月底,查看了网站日志,是wp-cron.php 导致异常. 原来这是WordPress定时任务,禁用即可. 在wp-config.php添加 /* 禁用定时任务 wp-cron */ de ...
ubuntu18 电脑重启后登录后无法进入桌面
ubuntu18 电脑重启后登录后无法进入桌面应该是ubuntu桌面管理器gdm3和nvidia驱动冲突导致的解决办法: 首先卸载已有的nvidia驱动注意:在下载完驱动后,此时电脑没有驱动文件 ...
Dependency Analyzer
Dependency Analyzer idea插件查找maven依赖 1.Setting---->Plugins------>Dependency Analyzer 2.使用 po ...

groupByKey、reduceByKey、aggregateByKey、foldByKey、combineByKey的联系和区别

groupByKey、reduceByKey、aggregateByKey、foldByKey、combineByKey的联系和区别的更多相关文章

随机推荐

热门专题