键值对的算子讲解 PairRDDFunctions

1：groupByKey

def groupByKey(): RDD[(K, Iterable[V])]

根据key进行聚集，value组成一个列表，没有进行聚集，所以在有shuffle操作时候避免使用概算子，会增大通信数据量。需要考虑进行一个本地的Combiner，所以可以直接使用reduceByKey

cala> p.collect

res15: Array[(Int, Int)] = Array((1,1), (2,1), (1,1), (2,1), (1,1), (2,1), (3,1), (4,1), (5,1))

scala> p.groupByKey.collect

res16: Array[(Int, Iterable[Int])] = Array((4,CompactBuffer(1)), (2,CompactBuffer(1, 1, 1)), (1,CompactBuffer(1, 1, 1)), (3,CompactBuffer(1)), (5,CompactBuffer(1)))

2：cogroup

def cogroup[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (Iterable[V], Iterable[W]))]

对每一个rdd先进行groupByKey，然后在对相同key的value在进行一个groupByKey，例如

scala> p.collect

res18: Array[(Int, Int)] = Array((1,1), (2,1), (1,1), (2,1), (1,1), (2,1), (3,1), (4,1), (5,1))

scala> p.cogroup(p).collect

res19: Array[(Int, (Iterable[Int], Iterable[Int]))] = Array((4,(CompactBuffer(1),CompactBuffer(1))), (2,(CompactBuffer(1, 1, 1),CompactBuffer(1, 1, 1))), (1,(CompactBuffer(1, 1, 1),CompactBuffer(1, 1, 1))), (3,(CompactBuffer(1),CompactBuffer(1))), (5,(CompactBuffer(1),CompactBuffer(1))))

例如：(1,1)在pair中出现三次，所以cogroup之后(1,1)的结果是：

(1,(CompactBuffer(1, 1, 1),CompactBuffer(1, 1, 1)))

3：aggregateByKey

def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[(K, U)]

说明：这个函数相对有点难懂，其他重载版本与此类似。该函数接受三个参数，一个初始值，两个函数：seqOp和comOp：

seqOp是对分区进行具体的函数，zeroValue值只有在seqOp中有使用，在第二个函数comOp中就不在使用了。

comOp是分区之间的combine函数(combine函数有点类似combiner的作用，进行聚集的函数)。

例如：

    val data = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3), (2, 5)))

    def seq(a: Int, b: Int): Int = {

      println("seq: " + a + "\t " + b)

      math.max(a, b)

    }

    def comb(a: Int, b: Int): Int = {

      println("comb: " + a + "\t " + b)

      a + b

    }

执行过程输出：

seq: 1     3

seq: 1     2

seq: 1     4

seq: 1     3

seq: 1     5

comb: 3     2

comb: 5     4

comb: 3     5

说明：在调用seqOp函数时候，每一次都向（key，value）中的value和zeroValue进行求最大值，将该最大值作为key的value。执行完毕seqOp函数的状态为：

((1,(3,2,4)),(2(3,5)))

然后调用comOp函数将每一个key的value进行累加，得到最后输出。

输出：

scala> data.aggregateByKey(1)(seq, comb).collect.toBuffer

res36: scala.collection.mutable.Buffer[(Int, Int)] = ArrayBuffer((2,5), (1,7))

4：combineByKey

def combineByKey[C](createCombiner: (V) ⇒ C, mergeValue: (C, V) ⇒ C, mergeCombiners: (C, C) ⇒ C): RDD[(K, C)]

参数说明：

createCombiner, which turns a V into a C (e.g., creates a one-element list)
mergeValue, to merge a V into a C (e.g., adds it to the end of a list)
mergeCombiners, to combine two C's into a single one.

例如：

val data1 = sc.parallelize(List("a", "b", "c", "c", "b", "a", "b", "a"))

val data2 = sc.parallelize(List(1, 2, 3, 3, 2, 1, 2, 1))

val zip = data2.zip(data1)

val combineByKey = zip.combineByKey(List(_), (x: List[String], y: String) => y :: x, (x: List[String], y: List[String]) => x ::: y)

println(combineByKey.collect().toBuffer)

输出：

ArrayBuffer((1,List(a, a, a)), (2,List(b, b, b)), (3,List(c, c)))

5：flatMapValues

def flatMapValues[U](f: (V) ⇒ TraversableOnce[U]): RDD[(K, U)]

传入一个键值对的值给 (V) ⇒ TraversableOnce[U]函数，返回的是一个集合的函数。将当前的key和当前集合中每一个元素组成元组返回

val a = sc.parallelize(List((1,2),(3,4),(5,6)))

val b = a.flatMapValues(x=>1 to x)

b.collect.foreach(println(_))

输出：

(1,1)

(1,2)

(3,1)

(3,2)

(3,3)

(3,4)

(5,1)

(5,2)

(5,3)

(5,4)

(5,5)

(5,6)

分析：当传入是2的时候，生成一个1 to 2 的序列，然后当前key=1，所以生成(1,1),(1,2)两个元组、

6:foldByKey

def foldByKey(zeroValue: V)(func: (V, V) ⇒ V): RDD[(K, V)]

fold：折叠的意思，根据key进行折叠，例如：

scala> rdd.collect

res2: Array[String] = Array(hello, world, xiaomi, meizu, meizu)

scala> rdd.map((_,1)).foldByKey(1)(_+_).collect

res3: Array[(String, Int)] = Array((meizu,3), (hello,2), (world,2), (xiaomi,2))

此处zeroValue为1，由于meizu这个字符出现两次并加上zeroValue的话恰好是3。hello world xiaomi这些单词都是一次，并加上zeroValue恰好是2。

当zeroValue值为0的时候，我们可以实现一个wordcount。

7：mapValues

def mapValues[U](f: (V) ⇒ U): RDD[(K, U)]

对键值对的每一个value进行处理，key保持不变。例如：我对现有的键值对的值进行乘以10的操作

scala> rdd.map((_,1)).collect

res14: Array[(String, Int)] = Array((hello,1), (world,1), (xiaomi,1), (meizu,1), (meizu,1))

scala> rdd.map((_,1)).mapValues(x=>x*10).collect

res15: Array[(String, Int)] = Array((hello,10), (world,10), (xiaomi,10), (meizu,10), (meizu,10))

8：rightOuterJoin

def rightOuterJoin[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (Option[V], W))]

右外连接，other中的所有key都会出现在结果中，关联到的是一个Some值，关联不到的是一个None。例如：

scala> rdd1.collect

res26: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1))

scala> rdd2.collect

res27: Array[(Int, Int)] = Array((3,2), (4,2), (5,2), (6,2), (7,2), (8,2))

scala> rdd1.rightOuterJoin(rdd2).collect

res28: Array[(Int, (Option[Int], Int))] = Array((4,(Some(1),2)), (6,(None,2)), (8,(None,2)), (3,(Some(1),2)), (7,(None,2)), (5,(Some(1),2)))

9：leftOuterJoin

def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]

同上面右外连接。示例：

scala> rdd1.collect

res31: Array[(Int, Int)] = Array((1,1), (2,1), (3,1), (4,1), (5,1))

scala> rdd2.collect

res32: Array[(Int, Int)] = Array((3,2), (4,2), (5,2), (6,2), (7,2), (8,2))

scala> rdd1.leftOuterJoin(rdd2).collect

res33: Array[(Int, (Int, Option[Int]))] = Array((4,(1,Some(2))), (2,(1,None)), (1,(1,None)), (3,(1,Some(2))), (5,(1,Some(2))))

rdd中的所有的key都会出现，关联的不到的为None，此时关联的值在value的第二个位置。我们可以通过交换右外连接的两个rdd的位置，实现左外连接，但是区别在于value中元素的位置是逆序的：

scala> rdd2.rightOuterJoin(rdd1).collect //通过右外连接实现左外连接

res34: Array[(Int, (Option[Int], Int))] = Array((4,(Some(2),1)), (2,(None,1)), (1,(None,1)), (3,(Some(2),1)), (5,(Some(2),1)))

键值对的算子讲解 PairRDDFunctions的更多相关文章

【Spark】RDD操作具体解释3——键值型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致能够分为:输入分区与输出分区一对一.聚集.连接操作. 输入分区与输出分区一对一 mapValues mapValues:针对(K ...
Spark常用函数讲解之键值RDD转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Trans ...
OC键值观察KVO
什么是KVO? 什么是KVO?KVO是Key-Value Observing的简称,翻译成中文就是键值观察.这是iOS支持的一种机制,用来做什么呢?我们在开发应用时经常需要进行通信,比如一个model ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
分布式键值存储系统ETCD调研
分布式键值存储系统ETCD调研简介 etcd是一个开源的分布式键值存储工具--为CoreOS集群提供配置服务.发现服务和协同调度.Etcd运行在集群的每个coreos节点上,可以保证coreos集群 ...
Spark学习之键值对操作总结
键值对 RDD 是 Spark 中许多操作所需要的常见数据类型.键值对 RDD 通常用来进行聚合计算.我们一般要先通过一些初始 ETL(抽取.转化.装载)操作来将数据转化为键值对形式.键值对 RDD ...
XamarinEssentials教程移除键值首选项的键值
XamarinEssentials教程移除键值首选项的键值如果开发者不再使用首选项中的某一项时,可以将该项移除掉.此时可以使用Preferences类的Remove()方法,该方法可以将存在于首选项 ...
各种Map的区别，想在Map放入自定义顺序的键值对
今天做统计时需要对X轴的地区按照地区代码(areaCode)进行排序,由于在构建XMLData使用的map来进行数据统计的,所以在统计过程中就需要对map进行排序. 一.简单介绍Map 在讲解Map排 ...
ASP.NET MVC WebApi 返回数据类型序列化控制（json,xml) 用javascript在客户端删除某一个cookie键值对 input点击链接另一个页面，各种操作。 C# 往线程里传参数的方法总结 TCP/IP 协议用C#+Selenium+ChromeDriver 生成我的咕咚跑步路线地图 (转)值得学习百度开源70+项目
ASP.NET MVC WebApi 返回数据类型序列化控制(json,xml) 我们都知道在使用WebApi的时候Controller会自动将Action的返回值自动进行各种序列化处理(序列化为 ...

随机推荐

【学习笔记】JS设计模式总结
前言:这段时间都在学习Vue的知识,虽然手边放着一本js高程,但确实好久没有好好复习了.温故而知新,因此特意把JS常见的设计模式总结,希望对大家有所帮助... 1. 工厂模式释义:像工厂一样流水线般 ...
SpringBoot入门之集成JSP
原本打算这篇继续写thymeleaf方面的内容,一看内容还挺多的,可能一周也写不完,而且从Controller获取值等内容也都能从网上百度,所以就写了springboot集成jsp.不管thymele ...
牛刀小试MySQL--GTID
GTID的概念何为GITD GTID(global transaction identifier)是全局事务标识符,在MySQL5.6版本中作为一个超级特性被推出.事务标识不仅对于Master(起源 ...
[转]How to Improve Entity Framework Add Performance?
本文转自:http://entityframework.net/improve-ef-add-performance When you overuse the Add() method for mul ...
看到他我一下子就悟了-- Lambda表达式
一直对Lambda表达式似懂非懂,平常也用过,就是不太明白有时候还要百度.周六去图书馆看书,看到下面这几句话,一下子就悟了: Lambda表达式(匿名函数),基本形式: (intput paramte ...
T-SQL:谓词和运算符（六）
谓词一般有 where和having,check 谓词只计算 TRUE ,FALSE或者UNKNOWN 逻辑表达式如 AND 和OR 1.IN 谓词的用法 SELECT orderid, em ...
VB.NET 窗體操作
Private Sub A1() '加载窗体 frm1.Show() End Sub Private Sub A2() '離開 Process.GetCurrentProcess().Kill() E ...
[PHP]算法- 判断是否为二叉搜索树的后序遍历序列的PHP实现
二叉搜索树的后序遍历序列: 输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果.如果是则输出Yes,否则输出No.假设输入的数组的任意两个数字都互不相同. 思路: 1.后序遍历是左右中 ...
2017-12-26 Java关键字的汉化用词探讨
@狗屎咖啡的为GCC添加中文关键字项目对C关键词进行了汉化. 风格比较简约, 如'if'-如, 'else'-另. 个人感觉在中文编程语言尚未成熟之时, 不妨集思广益, 首先列出一些可选项, 然后从 ...
使用fiddle处理跨域
认真的用fiddle处理跨域相信很多前端的同学都或多或少被跨域这个问题烦恼过,网上很多处理的方式其实都是要后端处理, 用fiddle来处理 ,就不必看后端的脸色了,自己安安心心的倒腾接口,何乐而不为 ...

键值对的算子讲解 PairRDDFunctions

键值对的算子讲解 PairRDDFunctions的更多相关文章

随机推荐

热门专题