ClickHouse的JOIN算法选择逻辑以及auto选项
ClickHouse的JOIN算法选择逻辑以及auto选项
ClickHouse中的JOIN的算法有6种:
- Direct;
- Partial merge;
- Hash;
- Grace hash;
- Full sorting merge;
- Parallel hash。
Setting配置join_algorithm用于指定JOIN算法,它可以设置为多个值,例如join_algorithm='direct,hash,partial_merge'。在选择最终JOIN算法的时候是根据setting配置join_algorithm, 以及JOIN操作的Strictness、Kind和参与JOIN的右表表引擎类型共同决定。
Setting配置join_algorithm的可选值(可以组合,前面的例子已经展示了)如下所示:
- default
- auto
- hash
- partial_merge
- prefer_partial_merge
- parallel_hash
- direct
- full_sorting_merge
- grace_hash
JOIN算法的选择逻辑
上面已经提到join_algorithm上可以指定多个值,相当于是一个多路开关,它规定了哪些JOIN算法可以使用。而在具体JOIN语句执行时则根据具体情况(例如Strictness、Kind和右表表引擎类型)选择合适的JOIN算法。如果没有合适的JOIN算法,则会报错。选择逻辑按照优先级从高往低列举如下:
如果setting
join_algorithm包含'direct'或'default',则优先尝试Direct join。Direct join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ANY LEFT 键值对表引擎,如
Join engine、Dictionary engine必须为Join表引擎的关键字
单连接条件(不带OR)如果setting
join_algorithm包含'partial_merge'或者'prefer_partial_merge',则尝试使用Partial(sorting) merge join。Partial(sorting) merge join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ALL INNER
LEFT
RIGHT
FULL- 单连接条件(不带OR) ANY | SEMI INNER
LEFT- 连接条件(不带OR) 如果setting
join_algorithm包含'parallel_hash',则尝试使用Parallel hash join。Parallel hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 除了ASOF的所有 INNER
LEFT- 单连接条件(不带OR) 如果setting
join_algorithm包含'hash'或'default',或者虽然包含'parallel_hash'或'prefer_partial_merge'但是前面对应使用条件不满足,则尝试使用Hash join。Hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 所有 所有 - - 如果setting
join_algorithm包含'full_sorting_merge',则尝试使用Full sorting merge join。Full sorting merge join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 ALL | ANY INNER
LEFT
RIGHT
FULL- 单连接条件(不带OR) 如果setting
join_algorithm包含'grace_hash',则尝试使用Grace hash join。Grace hash join的使用条件是:Strictness Kind 右表引擎 JOIN关键字/条件 除了ASOF的所有 INNER
LEFT
RIGHT
FULL单连接条件(不带OR) 如果setting
join_algorithm包含'auto',则尝试先使用Hash join。当切换条件触发且Partial merge join的使用条件满足时切换到Partial merge join。
Auto的逻辑
当join_algorithm设置为'auto'时,ClickHouse会自行(不一定算是很智能)根据内存消耗情况选择JOIN算法。
首先采用hash join,并在JOIN运算期间记录生成的哈希表的行数和所消耗的内存。当行数或者消耗内存大小达到阈值时,切换到partial merge join算法。
阈值由settings设置max_rows_in_join 和max_bytes_in_join设定。
设置join_overflow_mode
当join_algorithm为'hash'时,在阈值max_rows_in_join 和max_bytes_in_join被超过时的行为取决于join_overflow_mode的设定。join_overflow_mode有两种取值:
THROW
抛异常。
BREAK
中断执行,返回部分结果。
ClickHouse的JOIN算法选择逻辑以及auto选项的更多相关文章
- MySQL Nested-Loop Join算法学习
不知不觉的玩了两年多的MySQL,发现很多人都说MySQL对比Oracle来说,优化器做的比较差,其实某种程度上来说确实是这样,但是毕竟MySQL才到5.7版本,Oracle都已经发展到12c了,今天 ...
- 1110Nested Loop Join算法
转自 http://blog.csdn.net/tonyxf121/article/details/7796657 join的实现原理 join的实现是采用Nested Loop Join算法,就是通 ...
- 关于join算法的四篇文章
MySQL Join算法与调优白皮书(一) MySQL Join算法与调优白皮书(二) MySQL Join算法与调优白皮书(三) MySQL Join算法与调优白皮书(四) MariaDB Join ...
- HASH JOIN算法
哈希连接(HASH JOIN) 前文提到,嵌套循环只适合输出少量结果集.如果要返回大量结果集(比如返回100W数据),根据嵌套循环算法,被驱动表会扫描100W次,显然这是不对的.看到这里你应该明白为 ...
- SparkMLlib学习分类算法之逻辑回归算法
SparkMLlib学习分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/51693 ...
- 24.join算法/锁_1
一. JOIN算法1.1. JOIN 语法 mysql> select * from t4; +---+------+ | a | b | +---+------+ | | 11 | | | 5 ...
- 谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)
本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 ...
- MySQL Join算法与调优白皮书(二)
Index Nested-Loop Join (接上篇)由于访问的是辅助索引,如果查询需要访问聚集索引上的列,那么必要需要进行回表取数据,看似每条记录只是多了一次回表操作,但这才是INLJ算法最大 ...
- 022:SQL优化--JOIN算法
目录 一. SQL优化--JOIN算法 1.1. JOIN 写法对比 2. JOIN的成本 3. JOIN算法 3.1. simple nested loop join 3.2. index nest ...
- SparkMLlib分类算法之逻辑回归算法
SparkMLlib分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/5169383 ...
随机推荐
- 若依框架的startPage( )函数怎么自动关联查询SQL语句?
Question Description 使用JAVA语言的若依框架的时候,发现只要使用了startPage()函数, 并不需要前端传递分页的数据,也不需要注解,就能完成分页功能.预判他应该是使用类似 ...
- Python并发编程——IO模型、阻塞IO、非阻塞IO、多路复用、异步IO、IO模型比较、selectors模块、复习网络和并发知识点
文章目录 每日测验 一 IO模型介绍 二 阻塞IO(blocking IO) 三 非阻塞IO(non-blocking IO) 四 多路复用IO(IO multiplexing) 五 异步IO(Asy ...
- OPPO主题组件开发 - 组件内容自适应
OPPO桌面有 3*5.3*6.4*5.4*6.5*5.5*6 等布局,随着布局不同,组件大小也会发生改变:不同型号手机分辨率不同,组件大小也不一致.这就要求组件内容做到自适应. 说明 OPPO主题组 ...
- LVGL双向链表学习笔记
LVGL双向链表学习笔记 1.LVGL链表数据类型分析 对于LVGL双向链表的使用,我们需要关注lv_ll.h和lv_ll.c两个文件,其中lv_ll.h里面包含了链表结构类型定义,以及相关API的声 ...
- 可视化-vscode安装matplotlib工具
可视化工具中,最流行的工具之一是 Matplotlib,它是一个数学绘图库,可以制作简单的图表,如折线图和散点图: 使用pip可以安装Matplotlib: 安装步骤:: 1.在vscode的终端输入 ...
- 02-oracle11g rac RMAN备份恢复至单机(未验证)
在一节点上进行全备确定备份路径,并赋予属组mkdir /rmanbackupchown oracle:oinsatll /rmanbackup进入rman进行全备rman target /run{al ...
- 【技术积累】《MongoDB实战》笔记(1)
<MongoDB实战>笔记 第一章 为现代Web而生的数据库 特性 mongodb适合做水平扩展的数据库. mongodb把文档组织成集合,无schema. 索引 mongodb的二级索引 ...
- 【matplotlib 实战】--散点图
散点图,又名点图.散布图.X-Y图,是将所有的数据以点的形式展现在平面直角坐标系上的统计图表. 散点图常被用于分析变量之间的相关性.如果两个变量的散点看上去都在一条直线附近波动,则称变量之间是线性相关 ...
- osx12.6设置全屏
首先安装VMWARE TOOLS就是unlocker208下的tool的darwin.iso 然后进入终端命令,这里要说一下,好多资料说按COMMAND键,反正我是没有进去,直接在vmware菜单里选 ...
- AdaBoost算法解密:从基础到应用的全面解析
本文全面而深入地探讨了AdaBoost算法,从其基础概念和原理到Python实战应用.文章不仅详细解析了AdaBoost的优缺点,还通过实例展示了如何在Python中实现该算法. 关注TechLead ...