一条慢SQL引发的血案
直接切入正题吧:
通常来说,我们看到的慢查询一般还不致于导致挂站,顶多就是应用响应变慢
不过这个恰好今天被我撞见了,一个慢查询把整个网站搞挂了
先看看这个SQL张撒样子:
# Query_time: 70.472013  Lock_time: 0.000078  Rows_sent: 7915203  Rows_examined: 15984089  Rows_affected: 0
# Bytes_sent: 1258414478
use js_sku;
SET timestamp=1465850117;
SELECT 
                ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno,
                ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number,
                ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status,
                ss_add_time, ss_lastmodify
                FROM js_sgoods_sku
                WHERE ss_si_id = 0 AND ss_status > 0
                ORDER BY
                ss_orderid DESC, ss_av_fid ASC;
这里贴出来的就是 mysql slow log 的信息,查询时间用了高达 70s!!
看到慢查询我们一般第一反应是这个 语句没有用到索引? 或者是索引不合理么? 那我们会去看看执行计划:
mysql> explain SELECT 
    ->                 ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno,
    ->                 ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number,
    ->                 ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status,
    ->                 ss_add_time, ss_lastmodify
    ->                 FROM js_sgoods_sku
    ->                 WHERE ss_si_id = 0 AND ss_status > 0
    ->                 ORDER BY
    ->                 ss_orderid DESC, ss_av_fid ASC;
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
| id | select_type | table         | type | possible_keys | key      | key_len | ref   | rows    | Extra                       |
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
|  1 | SIMPLE      | js_sgoods_sku | ref  | ss_si_id      | ss_si_id | 4       | const | 9516091 | Using where; Using filesort |
+----+-------------+---------------+------+---------------+----------+---------+-------+---------+-----------------------------+
1 row in set (0.00 sec)
这个看起来似乎用到了索引,可是为什么扫描到行还是这么多呢? 那我们就去看看表结构了,期望能从中找到点有价值的东西:
我们看到如下可用信息:
  KEY `ss_si_id` (`ss_si_id`,`ss_av_zid`,`ss_av_fid`) USING BTREE,
  `ss_si_id` int(11) unsigned NOT NULL DEFAULT '0' COMMENT '对应js_sgoods_info.si_id',
我们看到 索引似乎还能比较能够接受,但是我们看到 这个 ss_si_id 这个字段实际上是 goods_info 表的主键,也就是说它的离散程度应该是很大的,也就是区分度很大。
其实到这一步我们基本上可以认为 是由于我们这个表里边有很多 ss_si_id=0 导致,不过我们可以进一步的来证实我们的猜想:
1. 首先我们可以先确定我们的统计信息没有问题
2. 其次我们再count ss_si_id=0 的这个值有多少数据,来进一步验证我们的猜想。
那么我们先查看以下这个索引的统计信息:
xiean@localhost:js_sku 03:27:42>show index from js_sgoods_sku;
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table         | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| js_sgoods_sku |          0 | PRIMARY  |            1 | ss_id      | A         |    18115773 |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            1 | ss_si_id   | A  |     1811577  |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            2 | ss_av_zid   | A         |     6038591  |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            3 | ss_av_fid   | A         |    18115773 |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | IDX_001  |            1 | ss_sa_id    | A         |     3623154   |     NULL | NULL   |      | BTREE      |         |               |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
那么可以看到以下问题:
我们的ss_si_id  这个字段并没有我们表面上看到的 因为关联了某个表的主键,它的Cardinality 值就应该接近于 PRIMARY 的值。而是差别比较大的,难道是 索引的统计信息不准确? 那我们尝试重新收集下索引的统计信息:
xiean@localhost:js_sku 03:27:47>analyze table js_sgoods_sku;
+----------------------+---------+----------+----------+
| Table                | Op      | Msg_type | Msg_text |
+----------------------+---------+----------+----------+
| js_sku.js_sgoods_sku | analyze | status   | OK       |
+----------------------+---------+----------+----------+
but ,我们再次查看 这些索引的统计信息:
xiean@localhost:js_sku 03:28:14>show index from js_sgoods_sku;
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table         | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| js_sgoods_sku |          0 | PRIMARY  |            1 | ss_id      | A         |    18621349 |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            1 | ss_si_id    | A         |     1551779  |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            2 | ss_av_zid   | A         |     6207116   |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | ss_si_id |            3 | ss_av_fid   | A         |    18621349 |     NULL | NULL   |      | BTREE      |         |               |
| js_sgoods_sku |          1 | IDX_001  |            1 | ss_sa_id    | A         |     3724269   |     NULL | NULL   |      | BTREE      |         |               |
+---------------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
我们可以看到 ss_si_id 的离散程度(Cardinality) 没有增加反而有向下波动的趋势,因为这个信息是采集部分页的来的,而每个页上边数据分布是不一样的,导致我们这个索引收集的统计信息就回有所变化。
好吧,到这里我们可以认为我们的 统计信息没有失效,那么我们就看数据的分别情况咯:
+--------------++----------++------------------+
| ss_si_id=0;  || count(*) || 7994788/19048617 |
+--------------++----------++------------------+
|  7994788     || 19048617 ||    0.4197           |
+--------------++----------++------------------+
额,不看不知道,一看吓一跳:我们这个表里边 存在有大量的 ss_si_id=0 的情况,占了整个表数据量的 41% !!!
好吧问题找到了,那么接下来我们需要知道,为什么这个SQL语句会导致挂站呢?
我们通过观看应用程序服务器的监控看到一些信息:我们的 goods_service 这个服务异常:异常情况如下:
1. cpu 长期占用100% + 
2. jstatck pid 无法dump 内存堆栈信息,必须强制dump -F
3. dump 出来的内存信息发现,这个进程里边所有线程 均处于 BLOCKED 状态
4. 通过jstat -gcutil 看到 FGC 相当频繁,10s左右就FGC一次
5. 内存占用超过了分配的内存
那么最终的原因就是因为上边的慢查询 查询了大量数据(最多有700w行数据),导致goods_service 内存暴涨,出现服务无法响应,进一步的恶化就是挂占
OK,知道了为什么会挂占,那么我们是如何解决这个问题的呢?
既然我们知道是由于查询了 ss_si_id=0 导致的,那么我们屏蔽掉这个SQL不就好了么。屏蔽的办法可以有多种:
1. 我们程序逻辑判断一下这类型的 查询 如果 有查询 ss_si_id=0 的一律封杀掉
2. 我们改改SQL配置文件,修改SQL语句
我们发现DB服务器上存在大量的 这个慢查询,而且DB服务器负载已经从 0.xx 飙升到了 50+ 了,随之而来的连接数也飙升的厉害, 如果再不及时处理,估计DB服务器也挂掉了
那么我们最终采取以下处理办法:
1.运维配合研发修改SQL语句 我们在这个WHERE 条件中添加了一个条件: AND ss_si_id  <> 0 ,在MySQL之行计划层屏蔽掉此SQL;
2.DBA 开启kill 掉这个查询语句,避免DB服务器出现down机的情况,当然这个就用到了我们的 pt-kill 工具,不得不说这个工具相当好用
总结(经验与教训):
  1.类似这种查询 default  值的 SQL ,我们应该从源头上杜绝这类查询
  2.限制查询结果集大小,避免因查询结果集太大导致服务死掉
一条慢SQL引发的血案的更多相关文章
- 一条sql引发的“血案”
		
前几天有一个项目要上线,需要对表的一个字段进行扩充,项目经理让我准备脚本,于是我准备了如下的脚本: )); )); )); 结果上线的时候,ord_log1和ord_log2表中有30万数据,在执行的 ...
 - 一条指令优化引发的血案,性能狂掉50%,clang使用-ffast-math选项后变傻了
		
https://www.cnblogs.com/bbqzsl/p/15510377.html 近期在做优化时,对一些函数分别在不同编译平台上进行bench测试.发现了不少问题. 现在拿其中一个问题来分 ...
 - 一个由正则表达式引发的血案  vs2017使用rdlc实现批量打印  vs2017使用rdlc  [asp.net core 源码分析] 01 - Session  SignalR  sql for xml path用法  MemCahe  C# 操作Excel图形——绘制、读取、隐藏、删除图形   IOC,DIP,DI,IoC容器
		
1. 血案由来 近期我在为Lazada卖家中心做一个自助注册的项目,其中的shop name校验规则较为复杂,要求:1. 英文字母大小写2. 数字3. 越南文4. 一些特殊字符,如“&”,“- ...
 - SQL实战——04. 查找所有已经分配部门的员工的last_name和first_name以及dept_no (一个逗号引发的血案)
		
查找所有已经分配部门的员工的last_name和first_name以及dept_noCREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_ ...
 - 测试杂谈——一条SQL引发的思考(二)
		
在前段时间,曾写过一篇关于SQL问题的文章,测试杂谈--一条SQL引发的思考(一). 今天这篇,算是个问题记录吧,问题并不复杂,但对于测试同学而言,确实是个需要关注的点. 问题分析 最近在日常工作中, ...
 - Replication的犄角旮旯(六)-- 一个DDL引发的血案(上)(如何近似估算DDL操作进度)
		
<Replication的犄角旮旯>系列导读 Replication的犄角旮旯(一)--变更订阅端表名的应用场景 Replication的犄角旮旯(二)--寻找订阅端丢失的记录 Repli ...
 - Replication的犄角旮旯(七)-- 一个DDL引发的血案(下)(聊聊logreader的延迟)
		
<Replication的犄角旮旯>系列导读 Replication的犄角旮旯(一)--变更订阅端表名的应用场景 Replication的犄角旮旯(二)--寻找订阅端丢失的记录 Repli ...
 - 转:一个Sqrt函数引发的血案
		
转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/1844725.html 源码下载地址:http://diducoder.com/sotr ...
 - 一个Sqrt函数引发的血案(转)
		
作者: 码农1946 来源: 博客园 发布时间: 2013-10-09 11:37 阅读: 4556 次 推荐: 41 原文链接 [收藏] 好吧,我承认我标题党了,不过既然你来了, ...
 
随机推荐
- UWP 滚动条私人定制
			
最近突然发现微软自带的滚动条好挫哦 微软哒(棒棒哒) 网上找的(美美哒) 好了. 如果你想要棒棒哒,那么就不用往下看了(手动再见). 如果你想要美美哒,就需要下面的神秘代码. <Style Ta ...
 - Unity优化方向——优化Unity游戏中的图形渲染(译)
			
CPU bound:CPU性能边界,是指CPU计算时一直处于占用率很高的情况. GPU bound:GPU性能边界,同样的是指GPU计算时一直处于占用率很高的情况. 原文:https://unity3 ...
 - 服务治理-> Spring Cloud Eureka
			
服务治理->搭建服务注册中心 服务治理可以说是微服务架构中最为核心和基础的模块, 它主要用来实现各个微服务 实例的自动化注册与发现. 为什么我们在微服务架构中那么需要服务治理模块呢?微服务 系统 ...
 - Elasticsearch的停用词(stopwords)
			
1.问题 在使用搜索引擎(Elasticsearch或Solr)作为应用的后台搜索平台的时候,会遇到停用词(stopwords)的问题. 在信息检索中,停用词是为节省存储空间和提高搜索效率,处理文本时 ...
 - nginx keepalived 高可用方案(转)
			
转自: https://www.cnblogs.com/leeSmall/p/9356535.html 一.Nginx Rewrite 规则 1. Nginx rewrite规则 Rewrite规则含 ...
 - url的param与dict转换
			
urllib.parse.urlencode urlencode from urllib import parse from urllib.request import urlopen from ur ...
 - 10分钟入门git简易教程
			
在注册了github账号之后,一度不知道该如何使用. 在仔细研究了github的官方说明文档.廖老师的教程.还有许多博主的文章之后,总算对github的操作和体系有了较为深刻的了解,还有这篇简单的入门 ...
 - 三维空间中xoy平面上特定抛物线的正等测投影解析解的一种求法
			
背景 背景:为锻炼代同学,老师给了她一个反向工程微信"跳一跳"小游戏的任务,希望做一个一样的出来.跳一跳中,有方块,有小人,小人站在方块上. 这个游戏的玩法是,用手指按住手机屏幕, ...
 - spring boot的maven项目报404错误
			
$.ajax({ async: false, type: "POST", url:'searchFileSource', contentType : "applicati ...
 - Notes of Daily Scrum Meeting(11.13)
			
Notes of Daily Scrum Meeting(11.13) 今天邹欣老师给我们讲课大家还是很有收获的,大家课堂的参与度确实有了很大的提升,而且邹欣老师关于项目Scrum Meeting报告 ...