Spark3学习【基于Java】5. Spark-Sql联表查询JOIN
大数据场景下,联表远比微小型关系型数据库中使用的频繁。网上有句话:
传统数据库单机模式做Join的场景毕竟有限,也建议尽量减少使用Join。
然而大数据领域就完全不同,Join是标配,OLAP业务根本无法离开表与表之间的关联,对Join的支持成熟度一定程度上决定了系统的性能,夸张点说,'得Join者得天下'。
-- SparkSQL – 有必要坐下来聊聊Join – 有态度的HBase/Spark/BigData (hbasefly.com)
不同数据库引擎对JOIN的实现算法一般不同,我们最常用的mysql中的join实现是Nested Loop Join (MySQL中Join算法实现原理通俗易懂_墨卿风竹的博客-CSDN博客),Spark中支持的要更广泛。
下面我们创造两个DF来进行测试。
- private static List<Customer> getCustomers() {
- List<Customer> customerList = new ArrayList<>(3);
- customerList.add(new Customer(100, "张三"));
- customerList.add(new Customer(101, "张四"));
- customerList.add(new Customer(102, "张五"));
- System.out.println("Customer: " + customerList);
- return customerList;
- }
- private static List<Payment> getPayments() {
- Random random = new Random(0);
- List<Payment> paymentList = new ArrayList<>(6);
- for (int a = 0; a < 6; a++) {
- int i = random.nextInt(10000);
- Payment p = new Payment((long) (a + 1), (long) (100+ a), (double) i);
- paymentList.add(p);
- }
- System.out.println("Payment: " + paymentList);
- return paymentList;
- }

Inner Join
内连接是spark默认的连接方式。通过join方法即可使用内连接:

你要这样用的话,会发现还有一个方法不用传入连接字段,猜一下输出什么:

上面这种连接只能指定一个连接字段,如果需要多字段匹配呢?spark提供了另一个方法:

这个方法的第二个参数Java没法直接提供,需要转换一下:

left join
DF没有直接提供leftJoin这样的方法,只提供了join()和crossJoin()两个。从上面的文档截图可以看到,通过传第三个参数来指定不同的连接方式。

现在对Java程序员不太友好了,每次join都要先转一次:可能这也是网上的博客、教程都用scala的原因吧。
right join
和left join类似:

outer join
全外连接是左外和右外的组合,这里不演示了。
cross join
这个上面提到了 ,有对应的方法。它产生的是笛卡尔积,会产生大量结果:

这个方法是2.1之后增加的。之前也是通过join方法实现,但是会被不小心误用,就增加了一个明确的方法。
Left-Semi-Join
左半连接和左连接比较类似,差别是结果中不包含右表字段,仅包含左表字段。
左连接不是既包含左表字段,又有右表字段,右表中不匹配的字段也显示但是为null。左半连接是右表不匹配的记录左表就不展示了,实际更应该叫semi-inner-join。它相当于关系型SQL中的子查询。
但是由于只返回左表,所以叫左半连接。同时并不提供右半连接操作,因为它就是内连接。
下面是连接方式映射

Left-anti-Join
左反连接是左半连接的取反,并不是右半连接。它展示的是左连接以后,右表是null的那些左表数据,也就是内连接以后左表的补集。相等于关系型数据库的not in。
Self Join
自连接就是DF跟自己连接,所以需要通过别名来区分两个DF。
自连接我们再Mysql中用的不少,一般用来查询层级数据,比如有父子关系的记录。为了简单,假设Payment中两个字段有父子关系,于是这样查询:

上面造的数据都不满足,所以改成这样:

运行输出是

如果把第一个参数的开始值改成98,输出就是

Null 字段匹配
假设在连接过程中(任何连接场景),连接字段出现了null会怎么样?
假设payement记录如下

默认情况下,spark会忽略这些记录,如果不想忽略可以这样:
- import static org.apache.spark.sql.functions.col;
- Dataset<Row> join = payment.as("c1").join(payment.as("c2"), col("c1.paymentId").eqNullSafe(col("c2.customerId")));
- join.show();
这里使用了方法eqNullSafe

结果如下

现在连customer也改成null看一下

两张表内连接结果如下

改成使用方法eqNullSage,结果如下

好像看起来不错,但你去把结果跟最早的结果(没比较Null的时候)对比发现,这里customerId出现了两次,而之前只出现了一次。
这里可以使用drop方法移除列:
- join.drop("customerId").show();
- join.drop(payment.col("customerId")).show();
效果可以猜一下。
JoinWith
最后说一下这个方法。从它的签名可以猜出作用:

把前面内连接的例子改成joinWith方法:

结果中每一行是一个元组,元组的两个元素分别是两个表的原始记录。
最后
已经都来到这了,你不想知道左半连接或左反连接的joinWith结果是啥吗?
Spark3学习【基于Java】5. Spark-Sql联表查询JOIN的更多相关文章
- SQL联表查询
数据库中最最常用的语法----select.简单的select语法很直白: select column from table where expression: 从((from)存储数据的地方(tab ...
- 基于双下划线的跨表查询 (join查询)
因为你的数据库中的查询就是重点 那么你的django提供的orm也是查询语句最重点 ,也提供的查询方法比较的多,下面我们学习下类似于MYSQL的连表(join)查询 Django 还提供了一种直观而 ...
- vb.net DBEntities框架联表查询 Join
在项目中配置好DBEntities 使用两个表:主表Table, 子表Table_Item 主要是用到了委托和泛型,ForEach用的是不带返回值的委托 Sub GetDb() Dim st As N ...
- [慢查优化]联表查询注意谁是驱动表 & 你搞不清楚谁join谁更好时请放手让mysql自行判定
写在前面的话: 不要求每个人一定理解 联表查询(join/left join/inner join等)时的mysql运算过程: 不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小: ...
- 【转】[慢查优化]联表查询注意谁是驱动表 & 你搞不清楚谁join谁更好时请放手让mysql自行判定
转自:http://zhengyun-ustc.iteye.com/blog/1942797 写在前面的话: 不要求每个人一定理解 联表查询(join/left join/inner join等)时的 ...
- 【explain】MySQL联表查询中的驱动表
写在前面 1.不要求每个人一定理解 联表查询(join/left join/inner join等)时的mysql运算过程 2.不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小 3 ...
- django orm 基于双下划线的跨表查询
一..基于双下划线的跨表查询(join实现) key:正向查询按字段,反向查询按表明小写 1.一对多跨表查询 查询在跨表中可以有两种方式,正向查询就是关键字段在你要搜索的表,没有关键字段就是反向查询 ...
- Django学习——图书相关表关系建立、基于双下划线的跨表查询、聚合查询、分组查询、F查询、Q查询、admin的使用、使用脚本调用Django、Django查看源生sql
0 图书相关表关系建立 1.5个表 2.书籍表,作者表,作者详情表(垂直分表),出版社表,书籍和作者表(多对多关系) 一对一 多对多 本质都是一对多 外键关系 3.一对一的关系,关联字段可以写在任意一 ...
- sql学习笔记(三)—— 联表查询
上篇写了一些sql查询的知识,这篇接着写一下有关联表查询的知识. 既然是联表查询,那肯定得多个表啊,所以,我们先创建一个教师表,表名为 teacher,并且向表中插入数据. 准备工作: 创建表语句: ...
- MyBatis学习存档(5)——联表查询
之前的数据库操作都是基于一张表进行操作的,若一次查询涉及到多张表,那该如何进行操作呢? 首先明确联表查询的几个关系,大体可以分为一对一和一对多这两种情况,接下来对这两种情况进行分析: 一.建立表.添加 ...
随机推荐
- python Requests 库的使用
目录 1. 介绍 2. 安装 3. 基本请求 3.1 get请求 3.2 post请求 3.3 自定义请求头部 3.4 设置超时时间 3.5 代理访问 3.6 session自动保存cookies 3 ...
- linux的统计实现
场景: 将下面的数据里category里的分类统计计数 数据源 es_ip10000.json {"_index":"order","_type&qu ...
- IPv6 — 地址格式与寻址模式
目录 文章目录 目录 前文列表 IPv6 的地址格式 站点前缀 地址生成方式 IPv6 地址的分类以及寻址模式 单播(Unicast)地址 Interface ID 全球唯一地址(Global Uni ...
- Sphinx 自动化文档
目录 文章目录 目录 Sphinx 入门 reStructuredText 语法格式 标题.列表.正文.要点 表格 代码块 引用其他模块文件 引用静态图片 Sphinx Sphinx 是一个工具,它使 ...
- git使用其它
创建目录 切换到本地新建的dev分支,目录下还是这个目录下的文件.我push一下,指定推送到dev分支,那么dev分支就在远程仓库同步创建,并且文件也是本地这个目录下的文件,一样的. 好像得改个名字才 ...
- 使用tc命令模拟linux网络延迟环境
tc(Traffic Control)是 Linux 中用于流量控制和网络模拟的强大工具.你可以使用它来模拟网络延迟.带宽限制.数据包丢失等. 以下是一个使用 tc 模拟网络延迟的基本步骤: 1.查看 ...
- Python读Excel数据自动化填入日常办公的网页表单
前言 本篇内容,让你完全掌握Python是如何自动化办公的~ 一.环境准备 1.1 Python 3.7.0 1.2 Pycharm (Python 开发工具) 1.3 Selenium ...
- spring boot 整合mybatis 配置多数据源 数据源切换和多数据源的事务
因为项目中用到了多数据源 不可避免的会有各种各样的问题列一下最主要的问题: 1 如何配置多数据源???2 spring项目中多数据源无法切换???3 操作了2个或者2个以上数据库的数据无法保证事务的一 ...
- Flyway简单迁移失败问题
因为我是初学者,所以问题 只是一些细节性问题,现在看看V开头创建数据库迁移时的错误 问题一: flyway 命名规则问题这个绝对的细节中的细节问题 问题一解决方案: 命名规则:一定要遵循flyway的 ...
- Linux之命令提示符的颜色设置
1.临时设置 执行下面的命令: export PS1="[\[\e[34;1m\]\u@\[\e[0m\]\[\e[32;1m\]\H\[\e[0m\] \[\e[31;1m\]\w\[\e ...