ClickHouse的JOIN算法选择逻辑以及auto选项
ClickHouse的JOIN算法选择逻辑以及auto选项
ClickHouse中的JOIN的算法有6种:
- Direct;
- Partial merge;
- Hash;
- Grace hash;
- Full sorting merge;
- Parallel hash。
Setting配置join_algorithm用于指定JOIN算法,它可以设置为多个值,例如join_algorithm='direct,hash,partial_merge'。在选择最终JOIN算法的时候是根据setting配置join_algorithm, 以及JOIN操作的Strictness、Kind和参与JOIN的右表表引擎类型共同决定。
Setting配置join_algorithm的可选值(可以组合,前面的例子已经展示了)如下所示:
- default
- auto
- hash
- partial_merge
- prefer_partial_merge
- parallel_hash
- direct
- full_sorting_merge
- grace_hash
JOIN算法的选择逻辑
上面已经提到join_algorithm上可以指定多个值,相当于是一个多路开关,它规定了哪些JOIN算法可以使用。而在具体JOIN语句执行时则根据具体情况(例如Strictness、Kind和右表表引擎类型)选择合适的JOIN算法。如果没有合适的JOIN算法,则会报错。选择逻辑按照优先级从高往低列举如下:
如果setting
join_algorithm包含'direct'或'default',则优先尝试Direct join。Direct join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ANY LEFT 键值对表引擎,如
Join engine、Dictionary engine必须为Join表引擎的关键字
单连接条件(不带OR)如果setting
join_algorithm包含'partial_merge'或者'prefer_partial_merge',则尝试使用Partial(sorting) merge join。Partial(sorting) merge join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ALL INNER
LEFT
RIGHT
FULL- 单连接条件(不带OR) ANY | SEMI INNER
LEFT- 连接条件(不带OR) 如果setting
join_algorithm包含'parallel_hash',则尝试使用Parallel hash join。Parallel hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 除了ASOF的所有 INNER
LEFT- 单连接条件(不带OR) 如果setting
join_algorithm包含'hash'或'default',或者虽然包含'parallel_hash'或'prefer_partial_merge'但是前面对应使用条件不满足,则尝试使用Hash join。Hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 所有 所有 - - 如果setting
join_algorithm包含'full_sorting_merge',则尝试使用Full sorting merge join。Full sorting merge join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ALL | ANY INNER
LEFT
RIGHT
FULL- 单连接条件(不带OR) 如果setting
join_algorithm包含'grace_hash',则尝试使用Grace hash join。Grace hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 除了ASOF的所有 INNER
LEFT
RIGHT
FULL单连接条件(不带OR) 如果setting
join_algorithm包含'auto',则尝试先使用Hash join。当切换条件触发且Partial merge join的使用条件满足时切换到Partial merge join。
Auto的逻辑
当join_algorithm设置为'auto'时,ClickHouse会自行(不一定算是很智能)根据内存消耗情况选择JOIN算法。
首先采用hash join,并在JOIN运算期间记录生成的哈希表的行数和所消耗的内存。当行数或者消耗内存大小达到阈值时,切换到partial merge join算法。
阈值由settings设置max_rows_in_join 和max_bytes_in_join设定。
设置join_overflow_mode
当join_algorithm为'hash'时,在阈值max_rows_in_join 和max_bytes_in_join被超过时的行为取决于join_overflow_mode的设定。join_overflow_mode有两种取值:
THROW
抛异常。
BREAK
中断执行,返回部分结果。
ClickHouse的JOIN算法选择逻辑以及auto选项的更多相关文章
- MySQL Nested-Loop Join算法学习
不知不觉的玩了两年多的MySQL,发现很多人都说MySQL对比Oracle来说,优化器做的比较差,其实某种程度上来说确实是这样,但是毕竟MySQL才到5.7版本,Oracle都已经发展到12c了,今天 ...
- 1110Nested Loop Join算法
转自 http://blog.csdn.net/tonyxf121/article/details/7796657 join的实现原理 join的实现是采用Nested Loop Join算法,就是通 ...
- 关于join算法的四篇文章
MySQL Join算法与调优白皮书(一) MySQL Join算法与调优白皮书(二) MySQL Join算法与调优白皮书(三) MySQL Join算法与调优白皮书(四) MariaDB Join ...
- HASH JOIN算法
哈希连接(HASH JOIN) 前文提到,嵌套循环只适合输出少量结果集.如果要返回大量结果集(比如返回100W数据),根据嵌套循环算法,被驱动表会扫描100W次,显然这是不对的.看到这里你应该明白为 ...
- SparkMLlib学习分类算法之逻辑回归算法
SparkMLlib学习分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/51693 ...
- 24.join算法/锁_1
一. JOIN算法1.1. JOIN 语法 mysql> select * from t4; +---+------+ | a | b | +---+------+ | | 11 | | | 5 ...
- 谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)
本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 ...
- MySQL Join算法与调优白皮书(二)
Index Nested-Loop Join (接上篇)由于访问的是辅助索引,如果查询需要访问聚集索引上的列,那么必要需要进行回表取数据,看似每条记录只是多了一次回表操作,但这才是INLJ算法最大 ...
- 022:SQL优化--JOIN算法
目录 一. SQL优化--JOIN算法 1.1. JOIN 写法对比 2. JOIN的成本 3. JOIN算法 3.1. simple nested loop join 3.2. index nest ...
- SparkMLlib分类算法之逻辑回归算法
SparkMLlib分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/5169383 ...
随机推荐
- bash解释器特性、目录结构、命令种类及优先级、常用命令
bash解释器的交互式环境特性 命令和文件自动补全 注意:Tab只能补全命令和文件及其文件路径 [root@localhost ~]# ls /etc/sysconfig/network-script ...
- 将GitBash设置为VS Code的默认终端
这个东西搞了半天,真的无语...网上的东西都太旧了 注意:"terminal.integrated.shell.windows"自2021年4月起已弃用. 1.首先打开设置 2.进 ...
- Intervals 题解
Intervals 题目大意 给定 \(m\) 条形如 \((l_i,r_i,a_i)\) 的规则,你需要求出一个长为 \(n\) 的分数最大的 01 串的分数,其中一个 01 串 \(A\) 的分数 ...
- .then()方法的意思和用法
then()方法是异步执行. 意思是:就是当.then()前的方法执行完后再执行then()内部的程序,这样就避免了,数据没获取到等的问题. 语法:promise.then(onCompleted, ...
- 实验1 C语言输入输出和简单程序编写
1.试验任务1 task1.c //打印一个字符小人 #include <stdio.h> int main() { printf(" o \n"); printf(& ...
- docker简单部署
docker 安装部署-yun yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docke ...
- 空地一体化网络综述_Space-Air-Ground Integrated Network: A Survey
摘要 空地一体化网络(SAGIN)主要解决的是单一网络下的局限性问题,此综述文章从网络设计.资源分配.到性能的优化,对近几年SAGIN的总结. 引言 受限于网络容量和覆盖范围,仅依靠地面通信系统无法在 ...
- 带您了解 O2OA 流程中的人工活动处理方式
这次咱们来介绍 O2OA (翱途) 开发平台流程引擎中的人工活动的处理方式和逻辑,O2OA (翱途) 主要采用拖拽可视化开发的方式完成流程的设计和配置,不需要过多的代码编写,业务人员可以直接进行修改操 ...
- SNN_TIPS
脉冲神经网络的研究思路: ANN2SNN 代表: 梯度下降法 代表: STDP 代表: 神经网络代差划分 以神经元实现功能为准: 优势 SNN是一个动态系统,在动态识别中发挥出色,比如语音识别和动态图 ...
- 题解 P7325
前言 数学符号约定 \(a,b,p\):表示任意自然数. \(F_x\):表示广义斐波那契数列的第 \(x\) 项. \(f_x\):表示普通斐波那契数列的第 \(x\) 项. 如非特殊说明,将会按照 ...