今天收到运营同学的一个 SQL,有点复杂,尤其是这个 SQL explain 都很长时间执行不出来,于是我们后台团队帮忙解决这个 SQL 问题,却正好发现了一个隐藏很深的线上问题。

select
a.share_code,
a.generated_time,
a.share_user_id,
b.user_count,
b.order_count,
a.share_order_id,
b.rewarded_amount
from t_risk_share_code a,
(select count(distinct r.user_id) user_count,
count(distinct r.order_id) order_count,
s.rewarded_amount,
r.share_code
from t_order s,t_order_rel r
where r.order_id = s.id and r.type = 1 and r.share_code = '我刚刚分享的订单编码'
group by r.share_code) b
where a.share_code = b.share_code and a.type = 1

首先,我们发现,直接 EXPLAIN 这个 SQL 也很慢,也就是可能某些子查询被实际执行了导致。所以,第一步我们先将其中的子查询拆解出来,逐步分析,即:

select count(distinct r.user_id) user_count,
count(distinct r.order_id) order_count,
max(s.rewarded_amount),
r.share_code
from t_order s,t_order_rel r
where r.order_id = s.id and r.type = 1 and r.share_code = '我刚刚分享的订单编码'
group by r.share_code

EXPLAIN 这个 SQL,执行很快,我们发现结果是:

奇了怪了,怎么 t_order 这张表的扫描就成为全扫描了?这张表的索引是正常的呀,主键就是 id。

根据官方文档,可以知道有如下几个原因

  1. 表太小了,走索引不值当的。但我们这里这两张表都非常大,都是千万级别的数据。
  2. 对于 WHERE 或者 ON 的条件,没有合适的索引,这也不是我们这里的情况,两张表都针对 WHERE 和 ON 条件有合适的索引(这里查询条件虽然都放到了 WHERE 里面,但是后面的分析我们会知道这个 SQL 会被改成 JOIN ON + WHERE 去执行)。
  3. 使用索引列与常数值作比较, MYSQL 通过索引分析出这个覆盖了表中大部分的值,其实就是分析出命中的行最后回表拉取数据的时候,表的文件中大部分页都要被加载到内存中进行读取,这样的话与其说先将索引加载到内存中获取命中列,不如直接扫描整个表,反正最后也是差不多将表的文件中大部分页都加载到内存中。这种情况很显然,不走索引反而会更快。我们这个 SQL 中,t_order_rel 表实际上根据 where 条件只会返回几十条数据,t_order 与 t_order_rel 是 1 对多的关系,这里不会命中太多数据的。
  4. 这一列值的离散度(Cardinality)太低,离散度就是是不同值的个数除以行数,最大为 1。但是这个值对于 innoDB 引擎来说,并不是实时计算的,可能不准确(尤其是在这一列的值发生更新导致行在页中的位置发生变化的时候).但是对于 distinct 或者主键列是不用计算的,就是 1。如果离散度太低,那么其实和第三种情况差不多,会命中过多的行数。这里我们要优化的 SQL 使用的是主键,所以不属于这种情况。

虽然以上都不是我们这里要讨论的情况,但是这里还是提一些我们为了避免出现全扫描的优化:

  1. 为了让 SQL 执行计划分析器更准确,针对第四种情况,我们对于某些表可能需要在业务闲时定期执行 ANALYZE TABLE,来确保分析器的统计数据的准确性。
  2. 由于考虑分库分表,以及有时候数据库 SQL 执行计划总是不完美还是会出现索引走错的情况,我们一般尽量在 OLTP 查询业务上加 force index 强制走一些索引。这在使用基于中间件的分库分表(例如 sharding-jdbc)或者原生分布式数据库(例如 TiDB)过程中,我们经常遇到的坑。
  3. 对于 MySQL,我们设置 --max-seeks-for-key = 10000(默认这个值非常大),这样其实就是限制了每次 SQL 执行计划分析器分析出来的走索引可能扫描的行数。其原理非常简单,参考源码:

sql_planner.cc

double find_cost_for_ref(const THD *thd, TABLE *table, unsigned keyno,
double num_rows, double worst_seeks) {
//将分析出会扫描的行数与 max_seeks_for_key 作对比,取其中小的那个
//也就是 SQL 分析器得出的结论中,走索引扫描的行数不会超过 max_seeks_for_key
num_rows = std::min(num_rows, double(thd->variables.max_seeks_for_key));
if (table->covering_keys.is_set(keyno)) {
// We can use only index tree
const Cost_estimate index_read_cost =
table->file->index_scan_cost(keyno, 1, num_rows);
return index_read_cost.total_cost();
} else if (keyno == table->s->primary_key &&
table->file->primary_key_is_clustered()) {
const Cost_estimate table_read_cost =
table->file->read_cost(keyno, 1, num_rows);
return table_read_cost.total_cost();
} else
return min(table->cost_model()->page_read_cost(num_rows), worst_seeks);
}

这个不能设置太小,否则会出现可以走多个索引但是走到实际扫描行数最多的索引

现在没办法了,EXPLAIN 已经不够我们分析出问题了,只能进一步求助 optimizer_trace 了。不直接用 optimizer_trace 的原因是,optimizer_trace 必须完整的执行 SQL 之后,才能获取到所有有用的信息。

## 打开 optimizer_trace
set session optimizer_trace="enabled=on";
## 执行 SQL
select .....
## 查询 trace 结果
SELECT trace FROM information_schema.OPTIMIZER_TRACE;

通过 trace 结果我们发现,实际执行的 SQL 是:

SELECT
各种字段
FROM
`t_order_rel` `r`
JOIN `t_order` `s`
WHERE
(
( `r`.`order_id` = CONVERT ( `s`.`id` USING utf8mb4 ) )
AND ( `r`.`type` = 1 )
AND ( `r`.`share_code` = 'B2MTB6C' )
)

我去,原来两个表的字段的编码是不一样的!导致 JOIN ON 的时候,套了一层编码转换 CONVERT ( s.idUSING utf8mb4 ) ).我们知道,字段外套一层函数这种条件匹配,是走不到索引的,例如:date(create_time) < "2021-8-1" 是不能走索引的,但是 create_time < "2021-8-1" 是可以的。不同类型之间列的比较,也走不到索引,因为 MySQL 会自动套上类型转换函数。这也是 MySQL 的语法糖经常带来的误用

这个 t_order_rel 的默认编码和其他表不一样,由于某些字段使用了 emoji 表情,所以建表的时候整个表默认编码使用了 utf8mb4。而且这个表仅仅是记录使用,没有 OLTP 的业务,只有一些运营同学使用的 OLAP 场景。所以一直没有发现这个问题。

修改字段编码后,SQL 终于不是全扫描了。同时以后要注意:

  1. 数据库指定默认的编码,表不再指定默认编码,同时对于需要使用特殊编码的字段,针对字段指定编码
  2. join,where 的时候,注意 compare 两边的类型是否一致,是否会导致不走索引

微信搜索“我的编程喵”关注公众号,每日一刷,轻松提升技术,斩获各种offer

这个大表走索引字段查询的 SQL 怎么就成全扫描了,我TM人傻了的更多相关文章

  1. spring-data-redis 上百万的 QPS 压力太大连接失败,我 TM 人傻了

    大家好,我们最近业务量暴涨,导致我最近一直 TM 人傻了.前几天晚上,发现由于业务压力激增,某个核心微服务新扩容起来的几个实例,在不同程度上,出现了 Redis 连接失败的异常: org.spring ...

  2. 大表建立索引引发enq: TX - row lock contention等待

    今天要给一张日志表(6000w数据)建立索引,导致生产系统行锁部分功能卡住 create index idx_tb_cid on tb_login_log(user_id); 开始执行后大概花费了20 ...

  3. 三张关联表,大表;单次查询耗时400s,有group by order by 如何优化

    问题SQL: select p.person_id as personId, p.person_name as personName, p.native_place as nativePlace, c ...

  4. MySQL8.0大表秒加字段,是真的吗?

    前言: 很早就听说 MySQL8.0 支持快速加列,可以实现大表秒级加字段.笔者自己本地也有8.0环境,但一直未进行测试.本篇文章我们就一起来看下 MySQL8.0 快速加列到底要如何操作. 1.了解 ...

  5. SQL查询表,表的所有字段名,SQL查询表,表的所有字段名

    SQL查询表,表的所有字段名 2011-07-29 10:21:43|  分类: SQLServer |  标签:表  sql  字段   |举报 |字号 订阅   SQL查询表,表的所有字段名 SQ ...

  6. Oracle系列(三): 情景查询一 a表中有个fid字段,逗号分隔开来,b表中有id字段及其他信息,如何关联a表的fid和和b表的id字段查询

    现在有两个表,表a中 DOC FID 1 a,b,c 2 a,c,d 表b中 ID KEY a A b B c C d D 怎么联合查询出 DOC FID KEY 1 a,b,c A,B,C 2 a, ...

  7. oracle 11g在大表中添加字段及默认值--加速

    今天遇到这个问题了.简单的增加语句,默认SQLPLUS执行,却会超时. 要增加客户端的TIMEOUT时间才可以解决.(感觉超过两三分钟,默认超时30秒) 另外, 也可以用两步操作(1,增加字段,2,修 ...

  8. mysql中关于关联索引的问题——对a,b,c三个字段建立联合索引,那么查询时使用其中的2个作为查询条件,是否还会走索引?

    情况描述:在MySQL的user表中,对a,b,c三个字段建立联合索引,那么查询时使用其中的2个作为查询条件,是否还会走索引? 根据查询字段的位置不同来决定,如查询a,     a,b    a,b, ...

  9. 详解MySQL大表优化方案( 转)

    当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化: 单表优化 除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑.部署.运维的各种复杂度,一般以整型 ...

随机推荐

  1. vue项目打包成html,在本地点击直接能打开

    默认情况下vue项目打包后,本地打开index.html是空白的,有报错.Failed to load resource: net::ERR_FILE_NOT_FOUND 这时需要修改config-& ...

  2. 『心善渊』Selenium3.0基础 — 11、Selenium对元素常用操作

    目录 1.Selenium对元素常用操作 2.Selenium对元素的其他操作 1.Selenium对元素常用操作 操作 说明 click() 单击元素 send_keys() 模拟输入 clear( ...

  3. 简述MSTP与配置

    一.简介 二.MSTP概述 三.功能 四.配置命令 一.简介 多生成树协议MSTP(Multiple Spanning Tree Protocol)是IEEE 802.1s中定义的生成树协议,通过生成 ...

  4. 春风十里不如你,全新Windows UI 3(WinUI 3) 的第一个实现Project Reunion 0.5

    什么是WinUI Windows UI库 (WinUI) 是适用于 Windows 桌面应用程序和 UWP 应用程序的本机用户体验 (UX) 框架. WinUI is a user interface ...

  5. 并发王者课-铂金8:峡谷幽会-看CyclicBarrier如何跨越重峦叠嶂

    欢迎来到<并发王者课>,本文是该系列文章中的第21篇,铂金中的第8篇. 在上一篇文章中,我们介绍了CountDownLatch的用法.在协调多线程的开始和结束时,CountDownLatc ...

  6. 16、linux下卸载oracle11gR2

    提示:如果要再次安装, 最好先做一些备份工作,包括用户的登录脚本,数据库自动启动关闭的 脚本,和Listener自动启动的脚本,要是有可能连创建数据库的脚本也保存下来: 16.1.通过oracle自带 ...

  7. [源码解析] 深度学习分布式训练框架 horovod (11) --- on spark --- GLOO 方案

    [源码解析] 深度学习分布式训练框架 horovod (11) --- on spark --- GLOO 方案 目录 [源码解析] 深度学习分布式训练框架 horovod (11) --- on s ...

  8. python3 依赖倒置原则示例

    场景 针对园区停车信息,需要对各个公司提供的停车数据进行整合并录入自家公司的大数据平台 数据的录入无外乎就是对数据的增删改查 下面上一个常规的写法(未符合依赖倒置),整合来自 长安和丰田 的停车数据 ...

  9. WebService:CXF的JaxWsDynamicClientFactory实现调用WebService接口

    首先需要引入依赖jar包 #版本只供参考,具体看项目 <dependency> <grouId>org.apache.cxf</grouId> <artifa ...

  10. ClouderaManager安装kafka报错

    是因为默认的java heap size是50M,将broker_max_heap_size参数设置为512M后,重启kafka服务即可