reduceByKey和groupByKey的区别

先来看一下在PairRDDFunctions.scala文件中reduceByKey和groupByKey的源码

/**

 * Merge the values for each key using an associative reduce function. This will also perform

 * the merging locally on each mapper before sending results to a reducer, similarly to a

 * "combiner" in MapReduce. Output will be hash-partitioned with the existing partitioner/

 * parallelism level.

 */

def reduceByKey(func: (V, V) => V): RDD[(K, V)] = {

  reduceByKey(defaultPartitioner(self), func)

}

/**

 * Group the values for each key in the RDD into a single sequence. Allows controlling the

 * partitioning of the resulting key-value pair RDD by passing a Partitioner.

 * The ordering of elements within each group is not guaranteed, and may even differ

 * each time the resulting RDD is evaluated.

 *

 * Note: This operation may be very expensive. If you are grouping in order to perform an

 * aggregation (such as a sum or average) over each key, using [[PairRDDFunctions.aggregateByKey]]

 * or [[PairRDDFunctions.reduceByKey]] will provide much better performance.

 *

 * Note: As currently implemented, groupByKey must be able to hold all the key-value pairs for any

 * key in memory. If a key has too many values, it can result in an [[OutOfMemoryError]].

 */

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] = {

  // groupByKey shouldn't use map side combine because map side combine does not

  // reduce the amount of data shuffled and requires all map side data be inserted

  // into a hash table, leading to more objects in the old gen.

  val createCombiner = (v: V) => CompactBuffer(v)

  val mergeValue = (buf: CompactBuffer[V], v: V) => buf += v

  val mergeCombiners = (c1: CompactBuffer[V], c2: CompactBuffer[V]) => c1 ++= c2

  val bufs = combineByKey[CompactBuffer[V]](

    createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine=false)

  bufs.asInstanceOf[RDD[(K, Iterable[V])]]

}

通过源码可以发现:

reduceByKey：reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

groupByKey：groupByKey会对每一个RDD中的value值进行聚合形成一个序列(Iterator)，此操作发生在reduce端，所以势必会将所有的数据通过网络进行传输，造成不必要的浪费。同时如果数据量十分大，可能还会造成OutOfMemoryError。

通过以上对比可以发现在进行大量数据的reduce操作时候建议使用reduceByKey。不仅可以提高速度，还是可以防止使用groupByKey造成的内存溢出问题。

reduceByKey和groupByKey的区别的更多相关文章

转载-reduceByKey和groupByKey的区别
原文链接-https://www.cnblogs.com/0xcafedaddy/p/7625358.html 先来看一下在PairRDDFunctions.scala文件中reduceByKey和g ...
spark:reducebykey与groupbykey的区别
从源码看: reduceBykey与groupbykey: 都调用函数combineByKeyWithClassTag[V]((v: V) => v, func, func, partition ...
reduceByKey和groupByKey区别与用法
在spark中,我们知道一切的操作都是基于RDD的.在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式.这种格式很像Pyth ...
【spark】常用转换操作：reduceByKey和groupByKey
1.reduceByKey(func) 功能: 使用 func 函数合并具有相同键的值. 示例: val list = List("hadoop","spark" ...
spark RDD，reduceByKey vs groupByKey
Spark中有两个类似的api,分别是reduceByKey和groupByKey.这两个的功能类似,但底层实现却有些不同,那么为什么要这样设计呢?我们来从源码的角度分析一下. 先看两者的调用顺序(都 ...
【Spark算子】：reduceByKey、groupByKey和combineByKey
在spark中,reduceByKey.groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom ...
spark新能优化之reduceBykey和groupBykey的使用
val counts = pairs.reduceByKey(_ + _) val counts = pairs.groupByKey().map(wordCounts => (wordCoun ...
scala flatmap、reduceByKey、groupByKey
1.test.txt文件中存放 asd sd fd gf g dkf dfd dfml dlf dff gfl pkdfp dlofkp // 创建一个Scala版本的Spark Context va ...
32、reduceByKey和groupByKey对比
一.groupByKey 1.图解 val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2 ...

随机推荐

51NOD 1554 欧姆诺姆和项链巧妙利用KMP
请戳这里! #include<cstdio> #define N 1000100 char s[N]; int n,k,nxt[N],ans[N]; int main() { scanf( ...
Delivering Goods UVALive - 7986（最短路+最小路径覆盖）
Delivering Goods UVALive - 7986(最短路+最小路径覆盖) 题意: 给一张n个点m条边的有向带权图,给出C个关键点,问沿着最短路径走,从0最少需要出发多少次才能能覆盖这些关 ...
转：Mysql explain
转自:http://blog.csdn.net/zhuxineli/article/details/14455029(单纯学习而转) explain显示了MySQL如何使用索引来处理select语句以 ...
高级数据查询SQL语法
接上一篇关系数据库SQL之基本数据查询:子查询.分组查询.模糊查询,主要是关系型数据库基本数据查询.包括子查询.分组查询.聚合函数查询.模糊查询,本文是介绍一下关系型数据库几种高级数据查询SQL语法, ...
Sql Server 事务/回滚
,'test1','test1') commit tran t1 ---提交事务功能:实现begin tran 和commit tran之间的语句,任一如果出现错误,所有都不执事务不是有错就回滚 ...
[bzoj 2216] [Poi2011] Lightning Conductor
[bzoj 2216] [Poi2011] Lightning Conductor Description 已知一个长度为n的序列a1,a2,-,an. 对于每个1<=i<=n,找到最小的 ...
汕头市队赛 SRM 08 A
比赛没参加所以回来补题咯 A还是自己YY出来了的可惜比赛没有打描述给一个 01 串设为其 S,询问是否存在只出现两次的 01 串 T. 这里的出现定义为存在一串下标 ,满足且 . 输入格式 ...
UVA 10912 Simple Minded Hashing
题意就略了.刚一看被数据吓住了.看到字符要求严格递增.那么如果字串长大于26那必然方案数目为0:同时1+2+3....+24+25+26=351如果大于这个数也是不可能的令dp[i][j][k]表示 ...
Scala学习随笔——控制语句
Scala只内置了为数不多的几种程序控制语句:if.while.for.try catch以及函数调用,这是因为从Scala诞生开始就包含了函数字面量,Scala内核没有定义过多的控制结构,而是可以通 ...
zabbix 批量添加聚合图形
环境为centos 脚本要在centos zabbix服务器上运行,zabbix server上运行 1.先把脚本部署到zabbix客户端,把脚本保存为nic.sh 存放路径确保zabbix可以访问 ...

reduceByKey和groupByKey的区别

reduceByKey和groupByKey的区别的更多相关文章

随机推荐

热门专题