在Spark中尽量少使用GroupByKey函数（转）

原文链接：在Spark中尽量少使用GroupByKey函数

为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用reduceByKey ；另外一种方式使用groupByKey，代码如下：

`01`	`#` `User:` `过往记忆`

`02`	`#` `Date:` `2015-05-18`

`03`	`#` `Time:` `下午22:26`

`04`	`#` `bolg:` `http://www.iteblog.com`

`05`	`#` `本文地址：http://www.iteblog.com/archives/1357`

`06`	`#` `过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货`

`07`	`#` `过往记忆博客微信公共帐号：iteblog_hadoop`

08

`09`	`val` `words` `=` `Array("one",` `"two",` `"two",` `"three",` `"three",` `"three")`

`10`	`val` `wordPairsRDD` `=` `sc.parallelize(words).map(word` `=> (word,` `1))`

11

`12`	`val` `wordCountsWithReduce` `=` `wordPairsRDD`

`13`	`.reduceByKey(_` `+` `_)`

`14`	`.collect()`

15

`16`	`val` `wordCountsWithGroup` `=` `wordPairsRDD`

`17`	`.groupByKey()`

`18`	`.map(t` `=> (t._1, t._2.sum))`

`19`	`.collect()`

　　虽然两个函数都能得出正确的结果，但reduceByKey函数更适合使用在大数据集上。这是因为Spark知道它可以在每个分区移动数据之前将输出数据与一个共用的 key 结合。

　　借助下图可以理解在reduceByKey里发生了什么。注意在数据对被搬移前同一机器上同样的 key 是怎样被组合的(reduceByKey中的 lamdba 函数)。然后 lamdba 函数在每个区上被再次调用来将所有值 reduce成一个最终结果。整个过程如下：

　　另一方面，当调用 groupByKey时，所有的键值对(key-value pair) 都会被移动。在网络上传输这些数据非常没有必要。避免使用 GroupByKey。

　　为了确定将数据对移到哪个主机，Spark会对数据对的 key 调用一个分区算法。当移动的数据量大于单台执行机器内存总量时 Spark 会把数据保存到磁盘上。不过在保存时每次会处理一个 key 的数据，所以当单个 key 的键值对超过内存容量会存在内存溢出的异常。这将会在之后发行的 Spark 版本中更加优雅地处理，这样的工作还可以继续完善。尽管如此，仍应避免将数据保存到磁盘上，这会严重影响性能。

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

　　你可以想象一个非常大的数据集，在使用 reduceByKey 和 groupByKey 时他们的差别会被放大更多倍。以下函数应该优先于 groupByKey ：
　　（1）、combineByKey组合数据，但是组合之后的数据类型与输入时值的类型不一样。
　　（2）、foldByKey 合并每一个 key 的所有值，在级联函数和“零值”中使用。

在Spark中尽量少使用GroupByKey函数（转）的更多相关文章

Effective Objective-C 2.0 — 第二条：类的头文件中尽量少引入其他头文件
第二条:类的头文件中尽量少引入其他头文件使用向前声明(forward declaring) @class EOCEmployer 1, 将引入头文件的实际尽量延后,只在确有需要时才引入,这样就可以减 ...
Spark中groupBy groupByKey reduceByKey的区别
groupBy 和SQL中groupby一样,只是后面必须结合聚合函数使用才可以. 例如: hour.filter($"version".isin(version: _*)).gr ...
Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点
避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("on ...
Spark学习笔记之RDD中的Transformation和Action函数
总算可以开始写第一篇技术博客了,就从学习Spark开始吧.之前阅读了很多关于Spark的文章,对Spark的工作机制及编程模型有了一定了解,下面把Spark中对RDD的常用操作函数做一下总结,以pys ...
Scala 深入浅出实战经典第42讲：scala 泛型类,泛型函数,泛型在spark中的广泛应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
DELPHI语法基础学习笔记-Windows 句柄、回调函数、函数重载等（Delphi中很少需要直接使用句柄，因为句柄藏在窗体、位图及其他Delphi 对象的内部）
函数重载重载的思想很简单:编译器允许你用同一名字定义多个函数或过程,只要它们所带的参数不同.实际上,编译器是通过检测参数来确定需要调用的例程.下面是从VCL 的数学单元(Math Unit)中摘录的一 ...
Spark中的IsNotNull函数怎么用
Spark中的IsNotNull函数怎么用在这里看到的这个函数,就是判断是否为空,但是开始不知道怎么用,后来找到了,要在View中用,也就是SparkSQL中.如下: spark.sql(" ...
BigData进阶--Spark中的函数与符号
转自:https://blog.csdn.net/YSC1123/article/details/78905090 1.Character.isDigit() 判断是否为数字 2.Character. ...
Spark中shuffle的触发和调度
Spark中的shuffle是在干嘛? Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD.也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不 ...

随机推荐

关于IPMI的几个问题
https://blog.csdn.net/lanyang123456/article/details/51712878
day5时间复杂度
时间复杂度 (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道.但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花 ...
python itertools模块练习
参考 <python标准库> 也可以参考Vamei博客列表用着很舒服,但迭代器不需要将所有数据同时存储在内存中. 本章练习一下python 标准库中itertools模块合并和分解 ...
bzoj 1853 容斥 + 搜索
思路:先把所有幸运数字找出来, 把没有用的去掉,然后爆搜容斥,因为最多只会搜十几个就超过限制了, 所以是可行的. #include<bits/stdc++.h> #define LL lo ...
python定制类(1)：__getitem__和slice切片
python定制类(1):__getitem__和slice切片 1.__getitem__的简单用法: 当一个类中定义了__getitem__方法,那么它的实例对象便拥有了通过下标来索引的能力. c ...
angular4 监听input框输入值的改变
angular中一般控件会有change事件,但是如果某些控件没有这个事件我们如何监听值的变化呢? 对于双向绑定的值,当值改变后监听事件有如下写法: 1. 如果是ngModel可以用ngModelC ...
使用抽象bean
定义抽象类Abstract=“true”抽象bean不能实例化,一个类可以创建多个bean. 抽象bean的配置和一般bean的配置基本一样只是在增加了Abstract=“true”抽象bean是一个 ...
基于python中staticmethod和classmethod的区别(详解)
例子 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 class A(object): def foo(self,x): print "executing foo ...
java 线程 wait join sleep yield notify notifyall synchronized
韩梦飞沙韩亚飞 313134555@qq.com yue31313 han_meng_fei_sha 休息方法 : 在指定时间内让该线程暂停, 不会释放锁标志. 等待方法: 让该线 ...
bzoj4556: [Tjoi2016&Heoi2016]字符串 (后缀数组加主席树)
题目是给出一个字符串,每次询问一个区间[a,b]中所有的子串和另一个区间[c,d]的lcp最大值,首先求出后缀数组,对于lcp的最大值肯定是rank[c]的前驱和后继,但是对于这个题会出现问题,就是题 ...

在Spark中尽量少使用GroupByKey函数（转）

原文链接：在Spark中尽量少使用GroupByKey函数

在Spark中尽量少使用GroupByKey函数（转）的更多相关文章

随机推荐

热门专题