MYSQL一次千万级连表查询优化

概述：
交代一下背景，这算是一次项目经验吧，属于公司一个已上线平台的功能，这算是离职人员挖下的坑，随着数据越来越多，原本的SQL查询变得越来越慢，用户体验特别差，因此SQL优化任务交到了我手上。
这个SQL查询关联两个数据表，一个是攻击IP用户表主要是记录IP的信息，如第一次攻击时间，地址，IP等等，一个是IP攻击次数表主要是记录每天IP攻击次数。而需求是获取某天攻击IP信息和次数。（以下SQL语句测试均在测试服务器上上，正式服务器的性能好，查询时间快不少。）

准备：
查看表的行数：

未优化前SQL语句为：

SELECT

attack_ip,

country,

province,

city,

line,

info_update_time AS attack_time,

sum( attack_count ) AS attack_times

FROM

`blacklist_attack_ip`

INNER JOIN `blacklist_ip_count_date` ON `blacklist_attack_ip`.`attack_ip` = `blacklist_ip_count_date`.`ip`

WHERE

`attack_count` > 0

AND `date` BETWEEN '2017-10-13 00:00:00'

AND '2017-10-13 23:59:59'

GROUP BY

`ip`

LIMIT 10 OFFSET 1000

先EXPLAIN分析一下：

这里看到索引是有的，但是IP攻击次数表blacklist_ip_count_data也用上了临时表。那么这SQL不优化直接第一次执行需要多久（这里强调第一次是因为MYSQL带有缓存功能，执行过一次的同样SQL，第二次会快很多。）

实际查询时间为300+秒，这完全不能接受呀，这还是没有其他搜索条件下的。
那么我们怎么优化呢，索引既然走了，我尝试一下避免临时表，这时我们先了解一下临时表跟group by的使联系:

查找了网上一些博客分析GROUP BY 与临时表的关系 :
　　

. 如果GROUP BY 的列没有索引,产生临时表.

　　. 如果GROUP BY时,SELECT的列不止GROUP BY列一个,并且GROUP BY的列不是主键 ,产生临时表.

　　. 如果GROUP BY的列有索引,ORDER BY的列没索引.产生临时表.

　　. 如果GROUP BY的列和ORDER BY的列不一样,即使都有索引也会产生临时表.

　　. 如果GROUP BY或ORDER BY的列不是来自JOIN语句第一个表.会产生临时表.

　　. 如果DISTINCT 和 ORDER BY的列没有索引,产生临时表.

仔细按照上面分析一下，这SQL可能是因为第二条导致的，blacklist_ip_count_date这个表的确主键不是IP，SELECT是多列的，那么我们试试单独提出单表测试能不能避免临时表：

很遗憾，并不能避免，但是我们仔细看看这EXPLAIN 里面的KEY 分析，用的索引是date单字段的索引。这好像就是导致了第一条的问题了，相当于GROUP BY没有用索引。那么我们试试强制使用IP单字段的索引呢？

这里看来的确是索引的问题，导致了临时表啊，然而再看看ROWS的数量，原来的9W变成了1552W，这不是不是捡了芝麻掉了西瓜吗？
这里单列索引避免了临时表可是联系的行数又增加了，那么我们再试试复合索引呢？
于是创建attack_count、date、ip的复合索引index_Acount_date_ip

ROWS的行数770W而且还是有临时表，看来这复合索引也是不可取。
到此，避免临时表方法失败了，我们得从其他角度想想如何优化。
其实，9W的临时表并不算多，那么为什么导致会这么久的查询呢？我们想想这没优化的SQL的执行过程是怎么样的呢？

网上搜索得知内联表查询一般的执行过程是：

、执行FROM语句

、执行ON过滤

、添加外部行

、执行where条件过滤

、执行group by分组语句

、执行having

、select列表

、执行distinct去重复数据

、执行order by字句

、执行limit字句

这里得知，Mysql 是先执行内联表然后再进行条件查询的最后再分组,那么想想这SQL的条件查询和分组都只是一个表的，内联后数据就变得臃肿了，这时候再进行条件查询和分组是否太吃亏了，我们可以尝试一下提前进行分组和条件查询，实现方法就是子查询联合内联查询。

这里EXPLAIN看来，只是多了子查询，ROWS和临时表都没有变化。那么我们看看实际的效果呢？

可见，取出来的数据完全一模一样，可是优化后效率从原来的330秒变成了0.28秒，这里足足提升了1000多倍的速度。这也基本满足了我们的优化需求。

总结：
整个过程中我们得知，其实EXPLAIN有时候并不能指出你的SQL的所有问题，有一些隐藏问题必须要你自己思考，正如我们这个例子，看起来临时表是最大效率低的源头，但是实际上9W的临时表对MYSQL来说不足以挂齿的。我们进行内联查询前，最好能限制连的表大小的条件都先用上了，同时尽量让条件查询和分组执行的表尽量小。感谢您们的阅读，如果有更好的方案，欢迎留言交流！！！
估计到这里，你猜这里就是全部的优化方案？不不不，整个优化过程怎么可能只是发现一个优化方案。还有其他方案

那么我们怎么优化呢，这里用的是内联表查询，大家都是知道子查询完全是可以代替内联表查询的，只不过SQL语句复杂了不少，那么我们分析一下这SQL，两个表分表提供了什么？
1、IP攻击次数表blacklist_ip_count_data主要提供的指定时间条件查询，攻击次数条件查询后的IP和每个IP符合条件下的具体攻击次数。
2、攻击IP用户表blacklist_attack_ip主要是具体IP的信息，如第一次攻击时间，地址，IP等等。
那么我们一步步来：
1、IP攻击次数表blacklist_ip_count_data获取符合时间条件和攻击次数的IP并且以IP分组：

2、攻击IP用户表blacklist_attack_ip指定具体的IP获取信息：

然后结合在一起：

可见，取出来的数据完全一模一样，可是优化后效率从原来的330秒变成了0.28秒，这里足足提升了1000多倍的速度。这也基本满足了我们的优化需求。
我们EXPLAIN了解一下情况：

总结：
其实这个优化方案跟我上一篇文章MYSQL一次千万级连表查询优化（一）解决原理一样，都是解决了内联表后数据就变得臃肿了，这时候再进行条件查询和分组就太吃亏了，于是我们可以先对单表进行条件处理，再进行连表查询，只不过这个方案只是用了子查询而没有内联查询了，而两者效率对比之下，有内联的方案带其他查询条件的效率更高。感谢您们的阅读，如果有更好的方案，欢迎留言交流！！！

MYSQL一次千万级连表查询优化的更多相关文章

MYSQL一次千万级连表查询优化（二）作为一的讲解思路
这里摘自网上,仅供自己学习之用,再次鸣谢概述: 交代一下背景,这算是一次项目经验吧,属于公司一个已上线平台的功能,这算是离职人员挖下的坑,随着数据越来越多,原本的SQL查询变得越来越慢,用户体验特别 ...
MYSQL一次千万级连表查询优化（一）
摘自网上学习之用 https://blog.csdn.net/Tim_phper/article/details/78344444 概述: 交代一下背景,这算是一次项目经验吧,属于公司一个已上线平台的 ...
( 转 ) 优化 Group By -- MYSQL一次千万级连表查询优化
概述: 交代一下背景,这算是一次项目经验吧,属于公司一个已上线平台的功能,这算是离职人员挖下的坑,随着数据越来越多,原本的SQL查询变得越来越慢,用户体验特别差,因此SQL优化任务交到了我手上. 这个 ...
在mysql数据库中制作千万级测试表
在mysql数据库中制作千万级测试表前言: 最近准备深入的学一下mysql,包括各种引擎的特性.性能优化.分表分库等.为了方便测试性能.分表等工作,就需要先建立一张比较大的数据表.我这里准备先建一张 ...
Mysql千万级大表优化
Mysql的单张表的最大数据存储量尚没有定论,一般情况下mysql单表记录超过千万以后性能会变得很差.因此,总结一些相关的Mysql千万级大表的优化策略. 1.优化sql以及索引 1.1优化sql 1 ...
MySQL千万级大表优化解决方案
MySQL千万级大表优化解决方案非原创,纯属记录一下. 背景无意间看到了这篇文章,作者写的很棒,于是乎,本人自私一把,把干货保存下来.:-) 问题概述使用阿里云rds for MySQL数据库( ...
如何优化MySQL千万级大表
很好的一篇博客,转载如何优化MySQL千万级大表原文链接::https://blog.csdn.net/yangjianrong1985/article/details/102675334 千万级 ...
Oracle中创建千万级大表归纳
从一月至今,我总共归纳了三种创建千万级大表的方案,它们是: 下面是这三种方案的对比表格: # 名称地址主要机制速度 1 在Oracle中十分钟内创建一张千万级别的表 https://www.cn ...
Mysql学习总结（22）——Mysql数据库中制作千万级测试表
前言: 为了方便测试性能.分表等工作,就需要先建立一张比较大的数据表.我这里准备先建一张千万记录用户表. 步骤: 1 创建数据表(MYISAM方式存储插入速度比innodb方式快很多) 数据表描述数 ...

随机推荐

【SPOJ10707】 COT2 Count on a tree II
SPOJ10707 COT2 Count on a tree II Solution 我会强制在线版本! Solution戳这里代码实现 #include<stdio.h> #inclu ...
文件上传下载、socketserver（并发）、解读socketserver源码
1.文件上传/下载学习了socket套接字,我们现在可以写一个文件上传/下载的程序,如下示例: 分析上边代码,我们发现,client发送上传文件相关信息的字典序列化之后,server又给client ...
【hyperscan】编译hyperscan 4.0.0
ref: http://01org.github.io/hyperscan/dev-reference/getting_started.html 1. 硬件需求 intel x86处理器 64-bit ...
Ubuntu 16.04 服务器上配置使用 Docker
Docker基础概念在使用Docker之前,我们先了解下几个Docker的核心概念 Docker Daemon Docker引擎,就是运行在后台的一个守护进程,在我们启动它之后,我们就可以通过Doc ...
OSGI动态加载删除Service bundle
OSGi模块化框架是很早就出来的一个插件化框架,最早Eclipse用它而出名,但这些年也没有大热虽然OSGi已经发布了版本1到版本5.现在用的最多的,也是本文讲述基于的是Equinox的OSGi实现, ...
读书笔记(01) - JSON - JavaScript高级程序设计
JSON与JavaScript对象 JSON是一种表示结构化数据的存储格式,语法格式上与JavasScript对象有些类似. TIPS: 与JavaScript对象的格式区别不支持变量.函数或对象实 ...
移动键盘滚动input
window.addEventListener('resize', function () { if(document.activeElement.tagName === 'INPUT'){ docu ...
关于VS2017的安装和WDK的选择问题
首先就是关于VS2017的安装,我们可以通过微软的官网去寻找我们想要安装的VS版本我们可以随便选择一个我们需要的版本进行下载,任意版本的VS都可以. 然后下载安装的时候,要进行一下这个安装选项的选择 ...
Spring Security 之 Remember-Me （记住我）
效果:在用户的session(会话)过期或者浏览器关闭后,应用程序仍能记住它.用户可选择是否被记住.(在登录界面选择) “记住”是什么意思? 就是下次你再访问的时候,直接进入系统,而不需要 ...
MySQL、Mariadb 复制原理
复制的作用 l 水平扩展 l 数据备份 l 数据分析 l 数据分布 l 高可用性复制的工作原理 Mariadb的复制功能是基于binlog进行的.复制的工作主要是由主库上Master du ...

MYSQL一次千万级连表查询优化

MYSQL一次千万级连表查询优化的更多相关文章

随机推荐

热门专题