Spark RDD关联操作小结

前言

Spark的rdd之间的关系需要通过一些特定的操作来实现，

操作比较多也，特别是一堆JOIN也挺容易让人产生混乱的。

因此做了下小结梳理一下。

准备数据

var rdd1 = sc.makeRDD(Array(("A","a1"),("C","c1"),("D","d1"),("F","f1"),("F","f2")),2)

var rdd2 = sc.makeRDD(Array(("A","a2"),("C","c2"),("C","c3"),("E","e1")),2)

这两个RDD 有以下几个特征：

“A” : rdd1中有rdd2中也有且他们都只有一个
“C”: rdd1中有rdd2中有两个
“D”: rdd1中有rdd2中没有
“E”: rdd1中没有rdd2中有一个
“F”: rdd1中有两个rdd2中没有

实验操作

1. JOIN

类似SQL的inner join操作，返回结果是前面和后面配对成功的，过滤掉关联不上的。

执行结果

scala> rdd1.join(rdd2).collect()

res5: Array[(String, (String, String))] = Array((A,(a1,a2)), (C,(c1,c2)), (C,(c1,c3)))

可以看到，结果以左边的Key为准。且是一对多的关系。

2. leftOuterJoin

leftOuterJoin类似于SQL中的左外关联left outer join，返回结果以前面的RDD为主，关联不上的记录为空。只能用于两个RDD之间的关联，如果要多个RDD关联，多关联几次即可。

执行结果

scala> rdd1.leftOuterJoin(rdd2).collect()

res6: Array[(String, (String, Option[String]))] = Array((F,(f1,None)), (F,(f2,None)), (D,(d1,None)), (A,(a1,Some(a2))), (C,(c1,Some(c2))), (C,(c1,Some(c3))))

可以看到，其实leftOuterJoin和Join非常类似，只不过Join会直接过滤掉不存在的，而leftOuterJoin会保留值为None。

3. rightOuterJoin

同上，只不过这次是以右边为准。

执行结果

scala> rdd1.rightOuterJoin(rdd2).collect()

res7: Array[(String, (Option[String], String))] = Array((A,(Some(a1),a2)), (C,(Some(c1),c2)), (C,(Some(c1),c3)), (E,(None,e1)))

4. subtractByKey

返回左边RDD有的Key而右边没有对应的Key。值为左边RDD原有的值。

执行结果

scala> rdd1.subtractByKey(rdd2).collect()

res9: Array[(String, String)] = Array((D,d1), (F,f1), (F,f2))

可以看到该操作与值无关。仅仅是过滤一些指定Key。

5. cogroup

cogroup相当于SQL中的全外关联full outer join，返回左右RDD中的记录，关联不上的为空。

执行结果

scala> rdd1.cogroup(rdd2).collect()

res11: Array[(String, (Iterable[String], Iterable[String]))] = Array((F,(CompactBuffer(f1, f2),CompactBuffer())), 
(D,(CompactBuffer(d1),CompactBuffer())), (A,(CompactBuffer(a1),CompactBuffer(a2))), (C,(CompactBuffer(c1),CompactBuffer(c2, c3))), 
(E,(CompactBuffer(),CompactBuffer(e1))))

Spark RDD关联操作小结的更多相关文章

spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
scala lambda 表达式 & spark RDD函数操作
形式:(参数)=> 表达式 [ 一种匿名函数 ] 例1:map(x => x._2) 解:x=输入参数,“=>” 右边是表达式(处理参数): x._2 : x变为(**,x,**. ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
Spark RDD概念学习系列之RDD的操作（七）
RDD的操作 RDD支持两种操作:转换和动作. 1)转换,即从现有的数据集创建一个新的数据集. 2)动作,即在数据集上进行计算后,返回一个值给Driver程序. 例如,map就是一种转换,它将数据集每 ...
Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）
1.动手实战和调试Spark文件操作这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
Spark学习之键值对（pair RDD）操作（3）
Spark学习之键值对(pair RDD)操作(3) 1. 我们通常从一个RDD中提取某些字段(如代表事件时间.用户ID或者其他标识符的字段),并使用这些字段为pair RDD操作中的键. 2. 创建 ...
Spark RDD概念学习系列之transformation操作
不多说,直接上干货! transformation操作惰性求值 (1)RDD 的转化操作都是惰性求值的.这意味着在被调用行动操作之前Spark不会开始计算. (2)读取数据到RDD的操作也是惰性的. ...

随机推荐

github安装k8s
转:https://mritd.me/2016/10/29/set-up-kubernetes-cluster-by-kubeadm/#23镜像版本怎么整一.环境准备首先环境还是三台虚拟机,虚拟机 ...
python opencv3 直线检测
git:https://github.com/linyi0604/Computer-Vision # coding:utf8 import cv2 import numpy as np # 读入图像 ...
Markdown的简介（转）
欢迎使用 Cmd - 在线 Markdown 编辑阅读器 *我们理解您需要更便捷更高效的工具记录思想,整理笔记.知识,并将其中承载的价值传播给他人, Cmd Markdown 是我们给出的答案 -- ...
php开启memcache扩展
1.下载memcache.dll(php7)https://github.com/nono303/PHP7-memcahe-dll/tree/master 2.将dll文件放到php7/ext目录下 ...
EL表达式和JSTL标准标签库
一.EL表达式什么是EL表达式 EL(Express Lanuage)表达式可以嵌入在jsp页面内部减少jsp脚本的编写 EL出现的目的是要替代jsp页面中脚本的编写. EL表达式的作用 EL最主 ...
[BZOJ4820][SDOI2017]硬币游戏(高斯消元+KMP)
比较神的一道题,正解比较难以理解. 首先不难得出一个(nm)^3的算法,对所有串建AC自动机,将在每个点停止的概率作为未知数做高斯消元即可. 可以证明,AC自动机上所有不是模式串终止节点的点可以看成一 ...
hdu 4676 Sum Of Gcd 莫队+phi反演
Sum Of Gcd 题目连接: http://acm.hdu.edu.cn/showproblem.php?pid=4676 Description Given you a sequence of ...
基于（Redis | Memcache）实现分布式互斥锁
设计一个缓存系统,不得不要考虑的问题就是:缓存穿透.缓存击穿与失效时的雪崩效应. 缓存击穿缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则 ...
Caffe2(1)----Ubantu14.04安装
英文好的请直接参考官方安装文档:Ubantu14.04下的源码编译. Caffe2的安装相比以前Caffe一代的安装,简直有点一键装机的感觉,下面简单总结下Caffe2的安装. 环境:Ubantu14 ...
发布设置setting.xml
<?xml version="1.0" encoding="UTF-8"?> <!-- User-specific configuration ...

Spark RDD关联操作小结

前言

准备数据

实验操作

1. JOIN

2. leftOuterJoin

3. rightOuterJoin

4. subtractByKey

5. cogroup

Spark RDD关联操作小结的更多相关文章

随机推荐

热门专题