029 RDD Join相关API，以及程序

1.数据集　　

　　A表数据：
　　　　1 a
　　　　2 b
　　　　3 c
　　B表数据：
　　　　1 aa1
　　　　1 aa2
　　　　2 bb1
　　　　2 bb2
　　　　2 bb3
　　　　4 dd1

2.join的分类

　　inner join

　　left outer join

　　right outer join

　　full outer join

　　left semi join

3.集中join的结果

　　A inner join B:
　　　　1 a 1 aa1
　　　　1 a 1 aa2
　　　　2 b 2 bb1
　　　　2 b 2 bb2
　　　　2 b 2 bb3

　　A left outer join B:
　　　　1 a 1 aa1
　　　　1 a 1 aa2
　　　　2 b 2 bb1
　　　　2 b 2 bb2
　　　　2 b 2 bb3
　　　　3 c null null

　　A right outer join B:
　　　　1 a 1 aa1
　　　　1 a 1 aa2
　　　　2 b 2 bb1
　　　　2 b 2 bb2
　　　　2 b 2 bb3
　　　　null null 4 dd1

　　A full outer join B:
　　　　1 a 1 aa1
　　　　1 a 1 aa2
　　　　2 b 2 bb1
　　　　2 b 2 bb2
　　　　2 b 2 bb3
　　　　3 c null null
　　　　null null 4 dd1

　　A left semi join B:（。。。。。注意。。。。。。）
　　　　1 a
　　　　2 b

4.API　　

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
　　返回值是RDD，RDD中的类型是一个二元组(a)，a第一个元素是KEY类型的值(join的key), a第二个元素又是二元组(b), b的第一个元素是来自调用join函数的RDD的value，
　　b的第二个元素是来自参数other这个RDD的value

def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]
　　对于右边的数据返回的是Option类型是数据，所以如果右表数据不存在，返回的是None；否则是一个Some的具体数据

def rightOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (Option[V], W))]
　　对于左边的数据返回的是Option类型是数据，所以如果左表数据不存在，返回的是None；否则是一个Some的具体数据

def fullOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (Option[V], Option[W]))]
　　返回的value类型是Option封装后的数据，如果数据不存在, 返回的是None，存在返回的是Some具体数据

5.其他方式实现join

6.join程序以及非join实现join

 package com.ibeifeng.senior.join

 import org.apache.spark.{SparkConf, SparkContext}

 /**

   * RDD数据Join相关API讲解

   * Created by ibf on 02/09.

   */

 object RDDJoin {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setMaster("local[*]")

       .setAppName("RDD-Join")

     val sc = SparkContext.getOrCreate(conf)

     // ==================具体代码======================

     // 模拟数据产生

     val rdd1 = sc.parallelize(Array(

       (1, "张三1"),

       (1, "张三2"),

       (2, "李四"),

       (3, "王五"),

       (4, "Tom"),

       (5, "Gerry"),

       (6, "莉莉")

     ), 1)

     val rdd2 = sc.parallelize(Array(

       (1, "上海"),

       (2, "北京1"),

       (2, "北京2"),

       (3, "南京"),

       (4, "纽约"),

       (6, "深圳"),

       (7, "香港")

     ), 1)

     // 调用RDD API实现内连接

     val joinResultRDD = rdd1.join(rdd2).map {

       case (id, (name, address)) => {

         (id, name, address)

       }

     }

     println("----------------")

     joinResultRDD.foreachPartition(iter => {

       iter.foreach(println)

     })

     // 调用RDD API实现左外连接

     val leftJoinResultRDd = rdd1.leftOuterJoin(rdd2).map {

       case (id, (name, addressOption)) => {

         (id, name, addressOption.getOrElse("NULL"))

       }

     }

     println("----------------")

     leftJoinResultRDd.foreachPartition(iter => {

       iter.foreach(println)

     })

     // 左外连接稍微变化一下：需要左表出现，右表不出现的数据(not in)

     println("----------------")

     rdd1.leftOuterJoin(rdd2).filter(_._2._2.isEmpty).map {

       case (id, (name, _)) => (id, name)

     }.foreachPartition(iter => {

       iter.foreach(println)

     })

     // 右外连接

     println("----------------")

     rdd1

       .rightOuterJoin(rdd2)

       .map {

         case (id, (nameOption, address)) => {

           (id, nameOption.getOrElse("NULL"), address)

         }

       }

       .foreachPartition(iter => iter.foreach(println))

     // 全外连接

     println("----------------")

     rdd1

       .fullOuterJoin(rdd2)

       .map {

         case (id, (nameOption, addressOption)) => {

           (id, nameOption.getOrElse("NULL"), addressOption.getOrElse("NULL"))

         }

       }

       .foreachPartition(iter => iter.foreach(println))

     ///////////////////////////////////////////假设rdd2的数据比较少，将rdd2的数据广播出去///////////////////////////////////////

     val leastRDDCollection = rdd2.collect()

     val broadcastRDDCollection = sc.broadcast(leastRDDCollection)     // Inner Join     rdd1

       // 过滤rdd1中的数据，只要在rdd1中出现的数据，没有出现的数据过滤掉

       .filter(tuple => broadcastRDDCollection.value.map(_._1).contains(tuple._1))

       // 数据合并，由于一条rdd1的数据可能在rdd2中存在多条对应数据，所以使用fla  tMap

       .flatMap {

       case (id, name) => {

         broadcastRDDCollection.value.filter(_._1 == id).map {

           case (_, address) => {

             (id, name, address)

           }

         }

       }

     }

       .foreachPartition(iter => iter.foreach(println))

     // 左外连接

     println("---------------------")

     rdd1

       .flatMap {

         case (id, name) => {

           // 从右表所属的广播变量中获取对应id的集合列表

           val list = broadcastRDDCollection.value.filter(_._1 == id)

           // 对应id的集合可能为空，也可能数据有多个

           if (list.nonEmpty) {

             // 存在多个

             list.map(tuple => (id, name, tuple._2))

           } else {

             // id在右表中不存在，填默认值

             (id, name, "NULL") :: Nil

           }

         }

       }

       .foreachPartition(iter => iter.foreach(println))

     // 右外连接

     /**

       * rdd2中所有数据出现，由于rdd2中的数据在driver中可以存储，可以认为rdd1和rdd2通过right join之后的数据也可以在driver中保存下

       **/

     println("---------------------")

     // 将rdd1中符合条件的数据过滤出来保存到driver中

     val stage1 = rdd1

       .filter(tuple => broadcastRDDCollection.value.map(_._1).contains(tuple._1))

       .collect()

     // 将driver中两个集合进行right join

     val stage2 = leastRDDCollection.flatMap {

       case (id, address) => {

         val list = stage1.filter(_._1 == id)

         if (list.nonEmpty) {

           list.map(tuple => (id, tuple._2, address))

         } else {

           Iterator.single((id, "NULL", address))

         }

       }

     }

     stage2.foreach(println)

     // TODO: 全外连接，不写代码，因为代码比较复杂

 　　

     //====================================

     // 左半连接：只出现左表数据(要求数据必须在右表中也出现过)，如果左表的数据在右表中出现多次，最终结果只出现一次

     println("+++++++++++++++++")

     println("-----------------------")

     rdd1

       .join(rdd2)

       .map {

         case (id, (name, _)) => (id, name)

       }

       .distinct()

       .foreachPartition(iter => iter.foreach(println))

     println("------------------------")

     rdd1

       .filter(tuple => broadcastRDDCollection.value.map(_._1).contains(tuple._1))

       .foreachPartition(iter => iter.foreach(println))

     // 休眠为了看4040页面

         Thread.sleep(1000000)

   }

 }

029 RDD Join相关API，以及程序的更多相关文章

030 RDD Join中宽依赖与窄依赖的判断
1.规律如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致,join结果的rdd分区数量也一样,这个时候join api是窄依赖除 ...
java 11 移除的一些其他内容，更简化的编译运行程序，Unicode 10，移除了不太使用的JavaEE模块和CORBA技术，废除Nashorn javascript引擎，不建议使用Pack200 相关api
移除的一些其他内容移除项移除了com.sun.awt.AWTUtilities 移除了sun.misc.Unsafe.defineClass, 使用java.lang.invoke.MethodH ...
Spark学习摘记 —— Pair RDD转化操作API归纳
本文参考参考<Spark快速大数据分析>动物书中的第四章"键值对操作",由于pair RDD的一些特殊操作,没有和前面两篇的API归纳放在一起做示例前面的几个api ...
Spark学习摘记 —— RDD行动操作API归纳
本文参考参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...
在docker中运行ASP.NET Core Web API应用程序
本文是一篇指导快速演练的文章,将介绍在docker中运行一个ASP.NET Core Web API应用程序的基本步骤,在介绍的过程中,也会对docker的使用进行一些简单的描述.对于.NET Cor ...
OpenGL FrameBufferCopy相关Api比较（glCopyPixels,glReadPixels,glCopyTexImage2D,glFramebufferTexture2D）
OpenGL FrameBufferCopy相关Api比较 glCopyPixels,glReadPixels,glCopyTexImage2D,glFramebufferTexture2D 标题所述 ...
[原创]java WEB学习笔记44：Filter 简介，模型，创建，工作原理，相关API，过滤器的部署及映射的方式，Demo
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...
TCP/IP协议栈源码图解分析系列10:linux内核协议栈中对于socket相关API的实现
题记:本系列文章的目的是抛开书本从Linux内核源代码的角度详细分析TCP/IP协议栈内核相关技术轻松搞定TCP/IP协议栈,原创文章欢迎交流, byhankswang@gmail.com linu ...
某音乐类App评论相关API的分析及SQL注入尝试
关键字:APIfen.工具使用.sql注入涉及工具/包:Fiddler.Burpsuite.Js2Py.Closure Compiler.selenium.phantomjs.sqlmap 摘要: ...

随机推荐

【bzoj3132】 Sdoi2013—森林
http://www.lydsy.com/JudgeOnline/problem.php?id=3123 (题目链接) 题意给出$n$个点的森林,每个点有一个非负点权,$m$个操作.连接两个点,查询 ...
Spring Boot整合MyBatis（使用Spring Tool Suite工具）
1. 创建Spring Boot项目通过Spring Tool Suite的Spring Starter Project对话框,其实是把项目生成的工作委托http://start.spring.io ...
解题：NOI 2018 归程
题面清新友好的题目跑一个最短路,然后对海拔建Kruskal重构树,从最后接上去的边(最低的一个)开始DFS一下处理子树里路程的最小值. 询问是每次在重构树上倍增找到深度最浅的海拔高于当天水位线的节 ...
HDU 6156 数位dp
Palindrome Function Time Limit: 8000/4000 MS (Java/Others) Memory Limit: 256000/256000 K (Java/Ot ...
创建 OpenStack云主机（十一）
创建过程创建虚拟网络创建m1.nano规格的主机(相等于定义虚拟机的硬件配置) 生成一个密钥对(openstack的原理是不使用密码连接,而是使用密钥对进行连接) 增加安全组规则(用iptable ...
BFC的个人理解
BFC是Block Formatting Context (块级格式化上下文)的缩写,是一个独立的渲染区域,这个东西的存在是为了隔绝一些内部子元素对外部元素的影响. 例如: 我们用overflow:h ...
docker mysql authentication_string client does not support authentication 连接问题
docker安装mysql后,本地navicat连接报错client does not support authentication 解决办法: 1. docker ps -a 查找到容器id 2. ...
SQL语句（十三）多表查询
多表查询 1. 笛卡尔乘积简单格式 SELECT * 或字段列表 FROM 数据表列表实例 --1. 笛卡尔乘积 (五条件的连接--很多条件无意义) Select * from Student, ...
git 学习小记
话说 git 出了已经很久了,可是我一直没用过.其实也不是没用过,只不过在 github 上下载东西那根本就不是在用 git,只是单纯的HTTP下载而已.我们公司用的是 svn,所以我只会一点点svn ...
jQuery中Animate进阶用法（三）
progressType: Function( Promise animation, Number progress, Number remainingMs )每一步动画完成后调用的一个函数,无论动画 ...

029 RDD Join相关API，以及程序

029 RDD Join相关API，以及程序的更多相关文章

随机推荐

热门专题