关于join算法的四篇文章

MySQL Join算法与调优白皮书（四）

MariaDB Join

MySQL数据库虽然提供了BKA Join来优化传统的JOIN算法，的确在一定程度上可以提升JOIN的速度。但不可否认的是，仍然有许多用户对于Hash Join算法有着强烈的需求。Hash Join不需要任何的索引，通过扫描表就能快速地进行JOIN查询，通过利用磁盘的带宽带最大程度的解决大数据量下的JOIN问题。

MariaDB支持Classic Hash Join算法，该算法不同于Oracle的Grace Hash Join，但是也是通过Hash来进行连接，不需要索引，可充分利用磁盘的带宽。

Classic Hash Join

其实MariaDB的Classic Hash Join和Block Nested Loop Join算法非常类似（Classic Hash Join也成为Block Nested Loop Hash Join），但并不是直接通过进行JOIN的键值进行比较，而是根据JoinBuffer中的对象创建哈希表，内表通过哈希算法进行查找，从而在Block Nested Loop Join算法的基础上，又进一步减少了内表的比较次数，从而提升JOIN的查询性能。过程如下图所示：

同样地，如果Join Buffer能够缓存所有驱动表（外表）的查询列，那么驱动表和内表的扫描次数都将只有1次，并且比较的次数也只是内表记录数（假设哈希算法冲突为0）。

Classic Hash Join和BKA Join算法一样，需要强制开启，优化器无法做自动的选择，这点也是目前MariaDB和MySQL数据库都存在的问题。但是，MySQL团队已经在重构优化器模块，相信不久的将来，这些问题将很快得到解决。

最后，各JOIN算法成本之间的比较如下表所示:

开销统计	SNLJ	INLJ	BNLJ	BNLJH
外表扫描次数：O	1	1	1	1
内表扫描次数：I	R	0	R*used_column_size/ join_buffer_size + 1	R*used_column_size/ join_buffer_size + 1
读取记录数：R	R + S*R	R + Smatch	R + S*I	R + S*I
Join比较次数：M	S*R	R * IndexHeight	S*R	S/I
回表读取记录次数：F	0	Smatch (if possible)	0	0

Hash Join算法虽好，但是仅能用于等值连接，非等值连接的JOIN查询，其就显得无能为力了。另外，创建哈希表也是费时的工作，但是一旦建立完成后，其就能大幅提升JOIN的速度。所以通常情况下，大表之间的JOIN，Hash Join算法会比较有优势。小表通过索引查询，利用BKA Join就已经能很好的完成查询。

总结

本文介绍了MySQL数据库的各类JOIN算法，其中有Index Nested-Loop Join、Block Nested-Loop Join、Batched Key Access Join算法，最后还介绍了MariaDB的Classic HashJoin算法。通过本文，用户可以发现，虽然MySQL在JOIN算法的支持力度上远不如传统的Oracle、Microsoft SQL Server数据库，但是完成一般的JOIN查询任务是完全没有问题的。用户可能需要选对各种JOIN算法，然后根据不同算法进行参数调优，从而提升JOIN的速度。

不可否认的是MySQL的优化器现在还是存在缺陷的，如优化器无法直接选择Batched Key Access Join和Classic Hash Join。好在Oracle官方已经在重构MySQL优化器模块，相信一个更好的基于成本计算的优化器终将来临。

即使MySQL未来支持Hash Join，但是大数据的查询已经不是传统数据库适合解决的问题，未来这部分工作将越来越多地通过Hadoop这样的集群来解决。

参考文献

[1].https://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_join_buffer_size

[2].https://dev.mysql.com/doc/refman/5.6/en/nested-loop-joins.html

[3].https://dev.mysql.com/doc/internals/en/join-buffer-size.html

[4].https://mariadb.com/kb/en/mariadb/block-based-join-algorithms/

关于join算法的四篇文章的更多相关文章

Spring Cloud第四篇 | 客户端负载均衡Ribbon
本文是Spring Cloud专栏的第四篇文章,了解前三篇文章内容有助于更好的理解本文: Spring Cloud第一篇 | Spring Cloud前言及其常用组件介绍概览 Spring Cl ...
ASP.NET MVC案例教程（基于ASP.NET MVC beta）——第四篇：传递表单数据
摘要本文将完成我们“MVC公告发布系统”的公告发布功能,以此展示在ASP.NET MVC中如何传递处理表单的数据. 前言通过前几篇文章,我们已经能比较自如的使用ASP.NET ...
Spring Cloud第十四篇 | Api网关Zuul
本文是Spring Cloud专栏的第十四篇文章,了解前十三篇文章内容有助于更好的理解本文: Spring Cloud第一篇 | Spring Cloud前言及其常用组件介绍概览 Spring C ...
对于SQL的Join，在学习起来可能是比较乱的。我们知道，SQL的Join语法有很多inner的，有outer的，有left的，有时候，对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通过文氏图 Venn diagrams 解释了SQL的Join。我觉得清楚易懂，转过来。
对于SQL的Join,在学习起来可能是比较乱的.我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚.Codi ...
启xin宝app的token算法破解——frida篇（四）
前两篇文章分析该APP的抓包.的逆向: 启xin宝app的token算法破解--抓包分析篇(一) 启xin宝app的token算法破解--逆向篇(二) 启xin宝app的token算法破解--toke ...
数据可视化之PowerQuery篇（四）二维表转一维表，看这篇文章就够了
https://zhuanlan.zhihu.com/p/69187094 数据分析的源数据应该是规范的,而规范的其中一个标准就是数据源应该是一维表,它会让之后的数据分析工作变得简单高效. 在之前的文 ...
解剖SQLSERVER 第十四篇 Vardecimals 存储格式揭秘（译）
解剖SQLSERVER 第十四篇 Vardecimals 存储格式揭秘(译) http://improve.dk/how-are-vardecimals-stored/ 在这篇文章,我将深入研究 ...
第四篇 Integration Services：增量加载-Updating Rows
本篇文章是Integration Services系列的第四篇,详细内容请参考原文. 回顾增量加载记住,在SSIS增量加载有三个使用案例:1.New rows-add rows to the dest ...
第四篇 SQL Server安全权限
本篇文章是SQL Server安全系列的第四篇,详细内容请参考原文. 权限授予主体访问对象,以执行某些操作.SQL Server有大量你可以授予给主体的权限,你甚至可以拒绝或回收权限.这听起来有点复杂 ...

随机推荐

jstl if条件判断字符串代码
<c:if test="${netWorkInfo.networkType eq '快修店'}"> <input type="radio" n ...
暑假集训单切赛第一场 POJ 2309 BST(找规律的题)
题意:给出一棵二分搜索树,再给一个节点编号n,求以这个节点为根节点的子树叶子节点的最大值与最小值. 首先求n所在的层数,他的层数就是他的因子中2的个数(规律). n的左右各有num=2^i-1个数.最 ...
POJ 4044 Score Sequence
题目链接题意 :给你两个序列,进行降序排序,找出连续的公共子序列,将这个子序列输出,然后对个位数升序排序,如果个位数相同就按数的大小排,再输出这个新排好的. 思路 :先排序,再找公共子序列,最后个位 ...
g++ gcc
编写一个main.cpp,linux 下执行步骤: (1)g++ mian.cpp ./a.out 后缀名是.cpp,编译完成后的可执行文件一般是a.out,也可以自己指定. (2) 编译命令(C): ...
JS操作Radio与Select
//radio的chang事件,以及获取选中的radio的值 $("input[name=radioName]").on("change", function( ...
lintcode：Add Binary 二进制求和
题目: 二进制求和给定两个二进制字符串,返回他们的和(用二进制表示). 样例 a = 11 b = 1 返回 100 解题: 和求两个链表的和很类似考虑进位,考虑最后一项的进位 0+0 = 0 不 ...
[hackerrank]Manasa and Stones
https://www.hackerrank.com/contests/w2/challenges/manasa-and-stones 简单题. #include<iostream> us ...
Filter(过滤器)常见应用
孤傲苍狼只为成功找方法,不为失败找借口! javaweb学习总结(四十六)——Filter(过滤器)常见应用一.统一全站字符编码通过配置参数charset指明使用何种字符编码,以处理Html F ...
ADO.NET入门教程（三）连接字符串，你小觑了吗？
出处:http://www.cnblogs.com/liuhaorain/archive/2012/02/12/2347914.html 摘要 ADO.NET强大的优势在于对不同的数据源提供一致的访问 ...
ipc$漏洞利用实例
一.什么是IPC$ IPC$(Internet Process Connection)是共享"命名管道"的资源,它是为了让进程间通信而开放的命名管道, 通过提供可信任的用户名和口令 ...

关于join算法的四篇文章

MySQL Join算法与调优白皮书（一）

MySQL Join算法与调优白皮书（二）

MySQL Join算法与调优白皮书（三）

MySQL Join算法与调优白皮书（四）

关于join算法的四篇文章的更多相关文章

随机推荐

热门专题