马哈鱼间接数据流中的where-group-by子句

syforacle 2024-09-06 02:21:51 原文

马哈鱼间接数据流中的where-group-by子句

本文介绍间接数据流中的where-group-by子句。

1、列在where子句中

WHERE子句中源表中的某些列不影响目标列，但对所选行集至关重要，因此应保存这些列以进行影响分析，并向目标表间接提供数据流。

以下述SQL为例：

SELECT a.empName "eName" FROM scott.emp a Where sal > 1000

select列表的总行数受where子句中sal列的值影响，我们为这种关系建立了一个间接数据流：

scott.emp.sal -> indirect -> RS-1.RelationRows

数据流图示：

2. COUNT()

COUNT（）函数是一个聚合函数，用于计算关系的总行数。

2.1 where子句中不包含 group by

示例SQL：

SELECT COUNT() num_emp FROM scott.emp where city=1

在上面的SQL中，将创建两个间接数据流，因为COUNT（）的值受where子句中的city列和scott.emp表的总行数的影响。

scott.emp.city -> indirect -> COUNT()
scott.emp.RelationRow -> indirect -> COUNT()

数据流图示：

2.2 where 子句中包含 group by

SELECT deptno, count() total_num
FROM scott.emp
where city=1
group by deptno;

如您所见，除了在前面的SQL中创建的两个间接数据流之外，还使用GROUPBY子句中的deptno创建了第三个间接数据流。

scott.emp.city -> indirect -> COUNT()
scott.emp.Relations -> indirect -> COUNT()
scott.emp.deptno -> indirect -> COUNT()

3. 其他聚合函数

创建间接数据流时，其他聚合函数，如SUM（）的工作原理与COUNT（）函数略有不同。

3.1 where子句中包含 group by

SELECT deptno, SUM(SAL) sal_sum
FROM scott.emp
where city=1
group by deptno

聚合函数（如SUM（）根据group by子句中使用的列确定的记录集计算值，因此group by子句中的deptno列用于创建一个间接数据流到SUM（）函数。

从deptno到SUM（）创建了一个间接数据流。

scott.emp.deptno -> indirect -> SUM()

如果出现group by子句，RelationRows伪列将不用于创建间接数据流。

3.2 where 子句中不包含 group by

SELECT SUM(SAL) sal_sum
FROM scott.emp
where city=1

上面的SQL表示表的整个记录集将用于计算SUM（）函数的值。

因此，将创建两个间接数据流，如下所示：

scott.emp.city -> indirect -> SUM()
scott.emp.RelationRows -> indirect -> SUM()

4、参考

马哈鱼数据血缘分析器: https://sqlflow.gudusoft.com

马哈鱼数据血缘分析器中文网站: https://www.sqlflow.cn

马哈鱼间接数据流中的where-group-by子句的更多相关文章

马哈鱼数据血缘分析器分析case-when语句
马哈鱼数据血缘分析器是一个分析数据血缘关系的平台,可以在线直接递交 SQL 语句进行分析,也可以选择连接指定数据库获取 metadata.从本地上传文件目录.或从指定 git 仓库获取脚本进行分析. ...
利用job提升马哈鱼数据血缘分析效率
利用job提升马哈鱼数据血缘分析效率一.Job基本知识前面文章中已介绍马哈鱼的基本功能,其中一个是job,job其实是一个任务集合处理的概念,就是让用户通过job,可以一次递交所有需要处理的 SQ ...
马哈鱼血缘分析工具部署介绍--win 10
马哈鱼血缘分析工具部署介绍--win 10 随着大数据技术的发展与普及,数据治理和数据质量变得越来越重要,数据血缘分析在业界悄然兴起并得到了广泛流行,马哈鱼是国内少有的一款专业且易用的血缘分析工具.本 ...
java优先级队列的使用 leecode.703.数据流中的第K大元素
//设计一个找到数据流中第K大元素的类(class). //注意是排序后的第K大元素,不是第K个不同的元素. class KthLargest { private PriorityQueue<I ...
[Swift]LeetCode703. 数据流中的第K大元素 | Kth Largest Element in a Stream
Design a class to find the kth largest element in a stream. Note that it is the kth largest element ...
数据流中的第k大元素的golang实现
设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中 ...
[LeetCode] Kth Largest Element in a Stream 数据流中的第K大的元素
Design a class to find the kth largest element in a stream. Note that it is the kth largest element ...
数据流中的中位数 Find Median from Data Stream
2019-04-17 16:34:50 问题描述: 问题求解: class MedianFinder { PriorityQueue<Integer> smaller; PriorityQ ...
剑指Offer 63. 数据流中的中位数（其他）
题目描述如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值.如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值.我们 ...

随机推荐

Electron 使用 Tray设置图标的路径问题
问题报错信息如图上面的代码在dev模式下不报错,但是在build后,安装后,运行会提示错误,错误信息的大意是参数错误,原因应该是安装后的图片文件路径有问题,这块没有详细研究解决上面的问题的方法,是使 ...
Linux组
Linux组介绍 Linux中,没有用户和文件可以脱离组而存在用户有"组"这一属性:相关链接文件有"所有者""组""其他组& ...
Ubuntu安装Jenkins是报错：The following signatures couldn't be verified because the public key is not available: NO_PUBKEY XXXXXXXXXXX
我使用Ubuntu16.04安装Jenkins时,按照官网的要求,步骤如下(https://pkg.jenkins.io/debian-stable/): # 添加Key sudo wget -q - ...
目录-Bug集锦
<Bug集锦>主要是收集一些较有回顾意义的Bug以及Bug的处理思路,方便大家互相学习. 目录 BUG-Nuget包版本不一致导致程序行为与预期不符
Swoole 协程使用示例及协程优先级
示例一: Co::set(['hook_flags'=> SWOOLE_HOOK_ALL]); Co\run(function () { go(function() { var_dump(fil ...
Linux上天之路（七）之Vim编辑器
vim 是 "vimsual interface IMproved"的简称,它可以执行输出.删除.查找.替换.块操作等众多文本操作,而且用户可以根据自己的需要对其进行定制,这是其他 ...
MapReduce和Hive学习文档链接学习顺序
1.<CentOS6.5下安装Hadoop-2.7.3(图解教程)> https://www.toutiao.com/i6627365258090512909/ 2.<CentOS6 ...
node之module与fs文件系统
命令行窗口(小黑屏).cmd窗口.终端.shell 开始菜单 --> 运行 --> CMD --> 回车常用的指令: dir 列出当前目录下的所有文件 cd 目录名进入到指定的目 ...
论文翻译：2021_AEC IN A NETSHELL: ON TARGET AND TOPOLOGY CHOICES FOR FCRN ACOUSTIC ECHO CANCELLATION
论文地址:https://ieeexploreieee.53yu.com/abstract/document/9414715 Netshell 中的 AEC:关于 FCRN 声学回声消除的目标和拓扑选 ...
Anaconda3+CUDA10.1+CUDNN7.6+TensorFlow2.6安装（Ubuntu16）
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...