Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

Spark的join与mysql的join类似，mysql的join是将表与表之间连接查询，spark中join是将RDD数据集进行连接，Spark主要有join、leftOuterJoin、rightOuterJoin及fullOuterJoin这4种连接

join：相当于mysql的INNER JOIN，当join左右两边的数据集都存在时才返回

leftOuterJoin：相当于mysql的LEFT JOIN，leftOuterJoin返回数据集左边的全部数据和数据集左边与右边有交集的数据

rightOuterJoin：相当于mysql的RIGHT JOIN，rightOuterJoin返回数据集右边的全部数据和数据集右边与左边有交集的数据

fullOuterJoin：返回左右数据集的全部数据，左右有一边不存在的数据以None填充

下面以代码看个例子：

from pyspark import SparkConf, SparkContext

conf = SparkConf()

sc = SparkContext(conf=conf)

def func_join():

    a = sc.parallelize([("name", "Alice"), ("age", 20), ("job", "student"), ("fav", "basket")])

    b = sc.parallelize([("name", "Bob"), ("age", 22), ("address", "WuHan")])

    print("join:{}".format(a.join(b).collect()))

    print("leftOuterJoin:{}".format(a.leftOuterJoin(b).collect()))

    print("rightOuterJoin:{}".format(a.rightOuterJoin(b).collect()))

    print("fullOuterJoin:{}".format(a.fullOuterJoin(b).collect()))

func_join()

sc.stop()

"""

result：

join:[('name', ('Alice', 'Bob')), ('age', (20, 22))]

leftOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22))]

rightOuterJoin:[('name', ('Alice', 'Bob')), ('age', (20, 22)), ('address', (None, 'WuHan'))]

fullOuterJoin:[('fav', ('basket', None)), ('name', ('Alice', 'Bob')), ('job', ('student', None)), ('age', (20, 22)), ('address', (None, 'WuHan'))]
"""

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin的更多相关文章

【原创】大数据基础之Spark（8）Spark中Join实现原理
spark中join有两种,一种是RDD的join,一种是sql中的join,分别来看: 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * ...
Spark SQL join的三种实现方式
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操 ...
spark关于join后有重复列的问题（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous）
问题 datafrme提供了强大的JOIN操作,但是在操作的时候,经常发现会碰到重复列的问题.在你不注意的时候,去用相关列做其他操作的时候,就会出现问题! 假如这两个字段同时存在,那么就会报错,如下: ...
Spark学习之路（十二）—— Spark SQL JOIN操作
一. 数据准备本文主要介绍Spark SQL的多表连接,需要预先准备测试数据.分别创建员工和部门的Datafame,并注册为临时视图,代码如下: val spark = SparkSession.b ...
Spark 系列（十二）—— Spark SQL JOIN 操作
一. 数据准备本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据.分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSessio ...
spark dataset join 使用方法java
dataset<Row> df1,df2,df3 //该方法可以执行成功 df3= df1.join(df2,"post_id").selectExpr("h ...
Spark算子--join
join--Transformation类算子代码示例 result
spark 算子之RDD
map map(func) Return a new distributed dataset formed by passing each element of the source through ...
Spark RDD Transformation 简单用例（二）
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) aggregateByKey(zeroValue)(seqOp, combOp, [numTa ...

随机推荐

mpvue——动态渲染echarts图表
前言使用mpvue-echarts来写图表,那个F2再提醒自己下要踩坑不能忘记.遇到了一个问题就是数据不能动态的去渲染,这个其实官方给了我们对应的方法懒加载代码修改了调用initChart() ...
Django 分页组件替换自定义分页
Django的分页器(paginator) 总之不太好用我们还是用自己的好一些自定义分页器分页实现源码 """ 自定义分页组件 """ ...
Docker 安装应用
Docker 安装应用安装 odoo 10 : docker pull postgres:9.6 &&docker pull odoo:10 && docker ru ...
Magento 2 Block模板终极指南
/view/frontend/page_layout/2columns-left.xml <layout xmlns:xsi="http://www.w3.org/2001/XMLSc ...
python学习日记（OOP——静态方法和类方法）
classmethod 类方法在Python中使用比较少,类方法传入的第一个参数为cls,是类本身.并且,类方法可以通过类直接调用,或通过实例直接调用.但无论哪种调用方式,最左侧传入的参数一定是类本身 ...
P1742 最小圆覆盖（计算几何）
体验过\(O(n^3)\)过\(10^5\)吗?快来体验一波当\(wys\)的快感吧\(QAQ\) 前置芝士1:二元一次方程组求解设 \[\begin{cases}a1 * x + b1*y=c1\ ...
Memcached介绍
Memcached介绍 Memcached是一种免费的.开源的.高性能的.分布式对象缓存系统,通过缓解数据库压力,来提高动态web页面的速度. Memcached是一种内存级别的键值对存储,用来存放数 ...
(BFS) leetcode 279. Perfect Squares
Given a positive integer n, find the least number of perfect square numbers (for example, 1, 4, 9, 1 ...
jQuery使用（十）：jQuery实例方法之位置、坐标、图形（BOM）
offset() position() scrollTop().scrollLeft width().height() innerWidth().outerWidth().innerHeight(). ...
JavaLinkedHashSet练习
题目三: 1.键盘录入一个字符串,去掉其中重复字符 2.打印出不同的那些字符,必须保证顺序.例如输入:aaaabbbcccddd,打印结果为:abcd.尝试用两种方法解决字符串删除问题,一是使用Has ...

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin的更多相关文章

随机推荐

热门专题