Unnesting Arbitrary Queries - T Neumann, A Kemper
The Complete Story of Joins (in HyPer) - Thomas Neumann, Viktor Leis, Alfons Kemper

Unnesting Arbitrary Queries

如其名,这篇paper讲的就是如何unnesting

看个简单的例子,这里称相关子查询为,dependent join

经过unnesting后得到下面的SQL

可以看到,unnesting的过程就是,把where中的标量子查询,放到from中成为一个derived table

所有的unnesting的思路,基本都是如此,把依赖外部的参数提出,剩下独立的sql生成临时derived table,然后再和外部的表进行join

定义

先给出inner join 的定义,

inner join就是对笛卡尔积,cross product,的一个selection

接着定义,dependent join,

从公式中看出,T2是个function,t2是T2(t1)的输出结果,同时结果还需要满足selection p
这里叫join有些confuse,微软定义为apply算子跟容易理解些

Unnesting

这里以TPCH-21为例子,

这里把selection上提,消除了l2的参数,转化为regular join

为什么把selection上提是合理的?

有selection的时候,对满足的条件的row执行sql,所以把selection上提后,就是对全量row执行sql

得到的结果是原来的超集

然后在外层再通过selection过滤,效果上是等价的

General Unnesting

上面只是一个例子,那么对于general的场景下,如何进行unnesting?

首先做一步转换,

D是个T1的子集,仅仅包含T2所需要的参数列的distinct

这样做的好处是,D是一个远小于T1的表,尤其如果T1的参数列有大量的重复的话
T2原先需要对T1的每一行都apply,但是现在只需要对distinct后的行

所以这里就把一个dependent join,转化成一个nicer的dependent join和一个regular join

以这个sql为例,

可以看出这个转换是等价的

再者,需要消除Dependent Join

消除的条件如下,

当D的输出列和T的参数列不相交的时候,就可以转化为regular join

如果不满足的,就需要用下面的公式去转换,

Selection

前面已经解释了,为什么selection上提是合理的

Join

对于inner join,本身是有交换和结合率的,所以可以简单的把和D没有依赖的join先提出

如果两边都依赖D的话,需要将D复制一份,分别和两个进行Dependent Join

 

同样对于Outer Join和Semi Join这种不支持交换率的情况,也需要复制D

GroupBY

GroupBy在上提后,会需要加上join key

Projection

根据这些规则,消除的过程如下,

上提GroupBy,按照规则,上提后, group by的column加上d.id

上提selection

此时,dependent join的左右已经不相干,

所以将dependent join转换为regular join

把selection下推到join上

The Complete Story of Joins (in HyPer)

主要介绍两种特殊的Join算子,

Single Join

对于下面的Sql,

子查询如果返回不止一条结果,需要报错

这就是需要加上Max1Row

而SingleJoin把Max1Row集成到算子内部,

Mark Join

看下这条Sql,

子查询后面有个or,Disjunction predicates

这样如果直接转成semi-join会有问题,因为那些可能满足or Sabbatical = true的行在join的时候会被筛选掉,上面拿不到

所以一个自然的想法就是,我们在join的时候不去筛选数据,把数据都保留下来,只是给每行打标,true,false,null

可以看到Mark Join的定义,多出一个m,用于标记是否满足join条件

因为Mark join没有筛选行,所以在最外层,我们可以自由的通过projection来挑选数据,

这里会选m为true,或者Sabbatical=true的行

MarkJoin在对null值的处理上也会很方便

子查询优化 - Hyper的更多相关文章

  1. 【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化(转载)

    原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_ ...

  2. 标量子查询优化(用group by 代替distinct)

    标量子查询优化 当使用另外一个SELECT 语句来产生结果中的一列的值的时候,这个查询必须只能返回一行一列的值.这种类型的子查询被称为标量子查询 在某些情况下可以进行优化以减少标量子查询的重复执行,但 ...

  3. PostgreSQL查询优化之子查询优化

    子查询优化 上拉子连接 上拉子连接主要是把ANY和EXIST子句转换为半连接 void pull_up_sublinks(PlannerInfo *root) { Node *jtnode; //子连 ...

  4. postgresql子查询优化(提升子查询)

    问题背景 在开发项目过程中,客户要求使用gbase8s数据库(基于informix),简单的分页页面响应很慢.排查发现分页sql是先查询出数据在外面套一层后再取多少条,如果去掉嵌套的一层,直接获取则很 ...

  5. MySQL实验 子查询优化双参数limit

    MySQL实验 子查询优化双参数limit 没想到双参数limit还有优化的余地,为了亲眼见到,今天来亲自实验一下.   实验准备 使用MySQL官方的大数据库employees进行实验,导入该示例库 ...

  6. Mysql单表访问方法,索引合并,多表连接原理,基于规则的优化,子查询优化

    参考书籍<mysql是怎样运行的> 非常推荐这本书,通俗易懂,但是没有讲mysql主从等内容 书中还讲解了本文没有提到的子查询优化内容, 本文只总结了常见的子查询是如何优化的 系列文章目录 ...

  7. 由一条sql语句想到的子查询优化

    摘要:相信大家都使用过子查询,因为使用子查询可以一次性的完成很多逻辑上需要多个步骤才能完成的SQL操作,比较灵活,我也喜欢用,可最近因为一条包含子查询的select count(*)语句导致点开管理系 ...

  8. mysql 子查询优化

    今天用到要查询七天内都没有装机的门店信息,首先想到了用not in,先把装机的userid查出来,然后再id not in,但是这样就必须使用子查询,数据量少还可以,数据量大了的话,肯定效率特别低,因 ...

  9. MySQL子查询优化实例

    优化:子查询改写成关联查询 线上遇到问题,查询较慢,如为对应SQL的查询执行计划: localhost.\G . row *************************** id: select_ ...

随机推荐

  1. Implement CGLIB in ABAP

    What is cglib?A Byte Code Generation Library which is high level API to generate and transform Java ...

  2. vue-cli 移动端项目如何在手机上调试预览

    这里分享下如何在webpack工具构建下的vue项目,在手机端调试和预览,言归正传. 1.电脑和手机连接到同一个WIFI a.台式电脑和手机同时链接一个路由器,使用同一个wifi: b.笔记本也可以直 ...

  3. MySQL5.7应当注意的参数

    简介: 本篇文章主要介绍 MySQL 初始化应当注意的参数,对于不同环境间实例迁移,这些参数同样应当注意. 注: 本文介绍的参数都是在配置文件 [mysqld] 部分. server_id 和 log ...

  4. 微信小程序 - 定位功能

    (1) 查看微信小程序文档 大家可以从我截图中可以看到,API中的返回值有纬度和经度,所以我们接下来就是要用到纬度和经度逆地址解析出地址的一些信息. (2)注册腾讯地图开放平台 注册完之后选择WebS ...

  5. MySQL Replication--复制延迟02--exec_time测试

    复制延迟(Seconds_Behind_Master)测试 测试环境: MySQL 5.7.19 测试主从时间差: 检查主从系统时间差,同时在主库和从库执行SELECT NOW()语句: 主库:-- ...

  6. Docker06-仓库

    目录 仓库介绍 阿里云仓库介绍 案例:推送redis镜像到阿里云 仓库介绍 仓库(Repository)是集中存放镜像的地方,仓库分为公开仓库和私有仓库两种形式. 最大的公开仓库是 Docker Hu ...

  7. 一、Linux_文件操作

    1.复制文件到当前目录: # 复制文件到当前目录下, ./表示当前目录 $ cp /home/book/poems.tar.gz ./ # 复制并改名,并存放在当前目录下 (cp源文件名 新文件名) ...

  8. NOIP2017 PJ 跳房子 —— 单调队列优化DP

    题目描述 跳房子,也叫跳飞机,是一种世界性的儿童游戏,也是中国民间传统的体育游戏之一.跳房子的游戏规则如下: 在地面上确定一个起点,然后在起点右侧画n个格子,这些格子都在同一条直线上.每个格子内有一个 ...

  9. Gym-100648B: Hie with the Pie(状态DP)

    题意:外卖员开始在0号节点,有N个人点了外卖,(N<=10),现在告诉两两间距离,问怎么配送,使得每个人的外卖都送外,然后回到0号点的总时间最短,注意,同一个点可以多次经过. 思路:TSP问题( ...

  10. MapReduce如何解决数据倾斜?

    数据倾斜是日常大数据查询中隐形的一个BUG,遇不到它时你觉得数据倾斜也就是书本博客上的一个无病呻吟的偶然案例,但当你遇到它是你就会懊悔当初怎么不多了解一下这个赫赫有名的事故. https://www. ...