mysql 如何优化left join

今天遇到一个left join优化的问题，搞了一下午，中间查了不少资料，对MySQL的查询计划还有查询优化有了更进一步的了解，做一个简单的记录：

select c.* from hotel_info_original c
left join hotel_info_collection h
on c.hotel_type=h.hotel_type and c.hotel_id =h.hotel_id
where h.hotel_id is null

这个sql是用来查询出c表中有h表中无的记录，所以想到了用left join的特性（返回左边全部记录，右表不满足匹配条件的记录对应行返回null）来满足需求，不料这个查询非常慢。先来看查询计划：

rows代表这个步骤相对上一步结果的每一行需要扫描的行数，可以看到这个sql需要扫描的行数为35773*8134，非常大的一个数字。本来c和h表的记录条数分别为40000+和10000+，这几乎是两个表做笛卡尔积的开销了（select * from c,h）。
于是我上网查了下MySQL实现join的原理，原来MySQL内部采用了一种叫做 nested loop join的算法。Nested Loop Join 实际上就是通过驱动表的结果集作为循环基础数据，然后一条一条的通过该结果集中的数据作为过滤条件到下一个表中查询数据，然后合并结果。如果还有第三个参与 Join，则再通过前两个表的 Join 结果集作为循环基础数据，再一次通过循环查询条件到第三个表中查询数据，如此往复，基本上MySQL采用的是最容易理解的算法来实现join。所以驱动表的选择非常重要，驱动表的数据小可以显著降低扫描的行数。
那么为什么一般情况下join的效率要高于left join很多？很多人说不明白原因，只人云亦云，我今天下午感悟出来了一点。一般情况下参与联合查询的两张表都会一大一小，如果是join，在没有其他过滤条件的情况下MySQL会选择小表作为驱动表，但是left join一般用作大表去join小表，而left join本身的特性决定了MySQL会用大表去做驱动表，这样下来效率就差了不少，如果我把上面那个sql改成
select c.* from hotel_info_original c
join hotel_info_collection h
on c.hotel_type=h.hotel_type and c.hotel_id =h.hotel_id
查询计划如下：

很明显，MySQL选择了小表作为驱动表，再配合(hotel_id,hotel_type)上的索引瞬间降低了好多个数量级。。。。。
另外，我今天还明白了一个关于left join 的通用法则，即：如果where条件中含有右表的非空条件（除开is null），则left join语句等同于join语句，可直接改写成join语句。
后记：
随着查看MySQL reference manual对这个问题进行了更进一步的了解。MySQL在执行join时会把join分为system/const/eq_ref/ref/range/index/ALl等好几类，连接的效率从前往后
依次递减，对于我的第一个sql，连接类型是index，所以几乎是全表扫描的效果。但是我很奇怪我在(hotel_id,hotel_type)两列上声明了unique key，根据官方文档连接类型应该是eq_ref才对，
这个问题一直困扰了我两天，在google和stackoverflow上都没有找到能够解释这个问题的文章，莫非我这个问题无解了？抱着解决这个问题的决心今天又翻看了一遍MySQL官方文档
关于优化查询的部分，看到了这样一句：这里的一个问题是MySQL能更高效地在声明具有相同类型和尺寸的列上使用索引。我感觉我找到了问题所在，于是我将original和 collection表的(hotel_type,hotel_id)的encoding和collation（决定字符比较的规则）全部改成统一的utf8_general_ci，然后再次运行第一条sql的查询计划，得到如下结果：

连接类型已经由index优化到了ref，如果将hotel_type申明为not null可以优化到eq_ref，不过这里影响不大了，优化后这条sql能在0.01ms内运行完。

那么如何优化left join：
1、条件中尽量能够过滤一些行将驱动表变得小一点，用小表去驱动大表

2、右表的条件列一定要加上索引（主键、唯一索引、前缀索引等），最好能够使type达到range及以上（ref,eq_ref,const,system）

3、无视以上两点，一般不要用left join~~！

mysql 如何优化left join的更多相关文章

mysql实战优化之八：关联查询优化
1. 多表连接类型 1. 笛卡尔积(交叉连接) 在MySQL中可以为CROSS JOIN或者省略CROSS即JOIN,或者使用',' 如: 由于其返回的结果为被连接的两个数据表的乘积,因此当有WHE ...
MySQL优化器join顺序
前一篇介绍了cost的计算方法,下面测试一下两表关联的查询: 测试用例 CREATE TABLE `xpchild` ( `id` int(11) NOT NULL, `name` varchar(1 ...
MySQL查询语句执行过程及性能优化（JOIN/ORDER BY)-图
http://blog.csdn.net/iefreer/article/details/12622097 MySQL查询语句执行过程及性能优化-查询过程及优化方法(JOIN/ORDER BY) 标签 ...
MySQL分页优化中的“INNER JOIN方式优化分页算法”到底在什么情况下会生效？
本文出处:http://www.cnblogs.com/wy123/p/7003157.html 最近无意间看到一个MySQL分页优化的测试案例,并没有非常具体地说明测试场景的情况下,给出了一种经典的 ...
Mysql查询优化器之关于JOIN的优化
连接查询应该是比较常用的查询方式,连接查询大致分为:内连接.外连接(左连接和右连接).自然连接下图展示了 LEFT JOIN.RIGHT JOIN.INNER JOIN.OUTER JOIN 相关的 ...
Mysql - 性能优化之子查询
记得在做项目的时候, 听到过一句话, 尽量不要使用子查询, 那么这一篇就来看一下, 这句话是否是正确的. 那在这之前, 需要介绍一些概念性东西和mysql对语句的大致处理. 当Mysql Server ...
Mysql性能优化三（分表、增量备份、还原）
接上篇Mysql性能优化二对表进行水平划分如果一个表的记录数太多了,比如上千万条,而且需要经常检索,那么我们就有必要化整为零了.如果我拆成100个表,那么每个表只有10万条记录.当然这需要数据在逻 ...
关于MySQL数据库优化的部分整理
在之前我写过一篇关于这个方面的文章 <[原创]为什么使用数据索引能提高效率?(本文针对mysql进行概述)(更新)> 这次,主要侧重点讲下两种常用存储引擎. 我们一般从两个方面进行MySQ ...
MySQL性能优化总结
一.MySQL的主要适用场景 1.Web网站系统 2.日志记录系统 3.数据仓库系统 4.嵌入式系统二.MySQL架构图: 三.MySQL存储引擎概述 1)MyISAM存储引擎 MyISAM存储引擎 ...

随机推荐

监控工具之zabbix server3.4 部署配置
[root@localhost src]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) [root@localhost s ...
如何把activity当成dialog
在工作中有时候需要把activity当成dialog使用,其实做法挺简单的. 1.设置activity的style <style name="DialogTheme" par ...
通过fromdata实现上传文件
其实呢,文件上传的插件很多,可是现在做的东西要求尽量少用插件,所以就自己写了一下. 之前也用node写过对文件处理方面的东西,这次用php写着试一下. a.html文件 <!DOCTYPE ht ...
Xshell工具使用--连接VMware虚拟机
假设有这样的场景,开发者用的是Windows系统,且系统的存储资源和内存有限,在运行VMware虚拟机中做一些测试时,通常会碍于电脑的VMWare客户端图形界面的响应速度太慢.而在Xshell中对虚拟 ...
ASP.NET Zero--Migration控制台应用程序
Migration控制台应用程序 AspNet Zero包含一个工具Migrator.exe,用于轻松迁移数据库.您可以运行此应用程序来创建/迁移host和租户数据库. 该应用程序从它自己的appse ...
获取spring security用户相关信息
在JSP中获得使用spring security的标签库在页面中引入标签 <%@ taglib prefix="sec" uri="http://www.spr ...
Python XML解析之DOM
DOM说明: DOM:Document Object Model API DOM是一种跨语言的XML解析机制,DOM把整个XML文件或字符串在内存中解析为树型结构方便访问. https://docs. ...
Linux Collection：软件配置
PAS Debian 9安装最新版Firefox( Firefox 58+/Quantum) Debian 9(Strech)的仓库包含的是firefox-esr(52)版本:需要安装最新版,有如下两 ...
云数据库PolarDB（一）
一.出现的背景及PolarDB简介阿里云,中国第一家拥有完整云计算能力的企业. 2015年,在计算界的奥运会Sort Benchmark中,阿里云计算100TB数据排序只用了不到7分钟,把Apach ...
jenkins编译打包nodejs
第一步安装nodejs插件第二步在全局配置管理里面添加 nodejs配置第三步新建任务,从git上面拉取代码 cd /opt/tomcat7/bin/workspace/confdev #进 ...

mysql 如何优化left join

mysql 如何优化left join的更多相关文章

随机推荐

热门专题