前几天线上收到一条告警邮件,生产环境MySQL操作发生了死锁,邮件告警的提炼出来的SQL大致如下。

update pe_order_product_info_test
set end_time = '2021-04-30 23:59:59'
where order_no = '111111111'
and product_id = 123456
and status in (1,2);
update pe_order_product_info_test
set end_time = '2021-04-30 23:59:59'
where order_no = '222222222'
and product_id = 123456
and status in (1,2);

是一条Update语句,定位了它的调用情况,发现Update的调用方只有一处,并且在Cat中看到一个小时的调用次数只有700多次,这个调用量基本与并发Update引起死锁无关了。

当时猜测了几种情况,这里Update进行操作时有其他业务方调用Select相关的接口,但是排查了那个时间点发生死锁应用的调用链,发现好像并没有其他会影响到Update的调用。

为了更进一步了解当时的情况,就联系了DBA老师,要了当时死锁发生时的日志,准备拿到日志之后大干一场,好好分析一下问题,结果...

DBA老师看了死锁日志直接点出了问题要害——index_merge索引合并。

1. 什么是索引合并

这是MySQL在5.1引入的优化技术,再此之前,一个表仅仅只能使用一个索引,但索引合并的引入,可以对同一张表使用多个索引分别进行条件扫描。

如果要拿索引合并index_merge与只使用一个索引做比较,那么拿上面那个update语句来做演示。

update pe_order_product_info_test
set end_time = '2021-04-30 23:59:59'
where order_no = '111111111'
and product_id = 123456
and status in (1,2);

只是用一个索引时,MySQL会选择一个最优的索引来使用,比如使用index_order_no,拿它来找出所有order_no为111111111的索引记录,从该索引上找到它的PRIMARY索引的id,然后回表找到对应的行数据,最后在内存中根据剩下的product_id和status条件来进行过滤。

但如果MySQL优化器觉得你如果只是用一个索引,拿出大量记录,然后再在内存中使用product_id和status过滤(并且符合该条件的记录值很少),这个第二步效率可能不高时,他就会使用索引合并进行优化。

如果使用索引合并去判断where条件时,那么它就会先通过index_order_no索引去找到PRIMARY索引的id,再通过index_product_id索引去找到PRIMARY索引的id,最后将两个id集合求交集,再回表找到行数据。(索引合并使用索引的顺序是不确定的)

2. 场景复现

在MySQL的Bug反馈文档中也有记录一个Bug #77209的记录,标注了索引合并引发死锁的情况。但是我按照它给出的repeat并不能重现索引合并的场景,在它的实例中早了600万随机数,我猜测可能是MySQL调高了索引合并的条件,将数据量增加到了1000万。

先来带大家复现一下当时的情况。

环境:MySQL 5.6.24

  1. 创建一张测试表

    CREATE TABLE `a` (
    `ID` int AUTO_INCREMENT PRIMARY KEY,
    `NAME` varchar(21),
    `STATUS` int,
    KEY `NAME` (`NAME`),
    KEY `STATUS` (`STATUS`)
    ) engine = innodb;
  2. 导入数据,为了方便导入一些随机数据,需要先开启一个兼容性配置。

    set global show_compatibility_56=on;

    开始导入随机数据。

    set @N=0;
    insert into a(ID,NAME,STATUS)
    select
    @N:=@N+1,
    @N%1600000,
    floor(rand()*4)
    from information_schema.global_variables a, information_schema.global_variables b, information_schema.global_variables c
    LIMIT 10000000;
  3. 测试

    update a set status=5 where rand() < 0.005 limit 1;
    explain UPDATE a SET STATUS = 2 WHERE NAME = '1000000' AND STATUS = 5;

3. 为什么发生了死锁

直接上一副图,以及两个update事务的加锁流程。

可以看到在订单与产品这个模型中,Update事务一和Update事物二在product_id索引和primary索引上都存在交叉重合,这就导致了死锁的发生。

步数 事务一 事务二
1 锁住index_order_no索引树上order_no为2222的索引项
2 锁住index_order_no索引树上order_no为3333的索引项
3 回表锁住 PRIMARY 索引中 id 为 11 的索引项
4 回表锁住 PRIMARY 索引中 id 为 12 的索引项
5 锁住index_product_id索引树上product_id为2000的四个索引项
6 尝试去锁住index_product_id索引树上product_id为2000的四个索引项,但是已经被事务一锁住,等待事务一释放index_product_id上的锁
7 试图回表锁住 PRIMARY 索引中 id 为10,11,12,13的索引项,发现id为12的索引项在第4步已经被事务二锁住,等待事务二释放

这就是本次死锁发生的原因所在了,解决方案有很多种,可以根据具体场景选择。

  1. 删除某一个索引,这当然不是一个好办法
  2. 关闭index_merge优化
  3. 为查询条件增加联合索引,在本例中是product_id和order_no。

4. 最后

当然最后这些都是我个人的分析,DBA老师给的建议是直接上联合索引,网上关于索引合并的资料实在太少了,除了官方文档简单扯了扯,剩下的都是转载来转载去的博客,内容都一模一样,DBA老师也不写博客,所以我就只能按我上述这个思路理解了,如果网友有什么问题欢迎指出~

一次MySQL死锁的排查记录的更多相关文章

  1. Mysql死锁如何排查:insert on duplicate死锁一次排查分析过程

    前言 遇到Mysql死锁问题,我们应该怎么排查分析呢?之前线上出现一个insert on duplicate死锁问题,本文将基于这个死锁问题,分享排查分析过程,希望对大家有帮助. 死锁案发还原 表结构 ...

  2. MySQL死锁系列-线上死锁问题排查思路

    前言 MySQL 死锁异常是我们经常会遇到的线上异常类别,一旦线上业务日间复杂,各种业务操作之间往往会产生锁冲突,有些会导致死锁异常.这种死锁异常一般要在特定时间特定数据和特定业务操作才会复现,并且分 ...

  3. 记一次排查线上MySQL死锁过程,不能只会curd,还要知道加锁原理

    昨晚我正在床上睡得着着的,突然来了一条短信. 啥,线上MySQL死锁了,我赶紧登录线上系统,查看业务日志. 能清楚看到是这条insert语句发生了死锁. MySQL如果检测到两个事务发生了死锁,会回滚 ...

  4. 【错误记录】flask mysql 死锁

    最近使用flask-sqlalchemy时,进行测试的时候发现日志中打印出了MySql死锁错误,查看Mysql日志发现是因为有俩条sql出现了死锁: Deadlock found when tryin ...

  5. MySQL 死锁问题分析

    转载: MySQL 死锁问题分析 线上某服务时不时报出如下异常(大约一天二十多次):"Deadlock found when trying to get lock;". Oh, M ...

  6. 一次MySQL死锁问题解决

    一次MySQL死锁问题解决 一.环境 CentOS, MySQL 5.6.21-70, JPA 问题场景:系统有定时批量更新数据状态操作,每次更新上千条记录,表中总记录数约为500W左右. 二.错误日 ...

  7. mysql-不恰当的update语句使用主键和索引导致mysql死锁

    背景知识:MySQL有三种锁的级别:页级.表级.行级. MyISAM和MEMORY存储引擎采用的是表级锁(table-level locking):BDB存储引擎采用的是页面锁(page-level ...

  8. 手把手教你分析解决MySQL死锁问题

    在生产环境中如果出现MySQL死锁问题该如何排查和解决呢,本文将模拟真实死锁场景进行排查,最后总结下实际开发中如何尽量避免死锁发生. 一.准备好相关数据和环境 当前自己的数据版本是8.0.22 mys ...

  9. Mysql 高负载排查思路

    Mysql 高负载排查思路 发现问题 top命令 查看服务器负载,发现 mysql竟然百分之两百的cpu,引起Mysql 负载这么高的原因,估计是索引问题和某些变态SQL语句. 排查思路 1. 确定高 ...

随机推荐

  1. WPF 学习笔记(一)

    一.概述 WPF(Windows Presentation Foundation)是微软推出的基于Windows 的用户界面框架,随着.NET Framework 3.0发布第一个版本.它提供了统一的 ...

  2. 安装pillow报错处理

    sudo python3 pip install pillow 报错:The headers or library files could not be found for jpeg,... 解决:安 ...

  3. 第4.7节 Python特色的序列解包、链式赋值、链式比较

    一.序列解包 序列解包(或可迭代对象解包):解包就是从序列中取出其中的元素的过程,将一个序列(或任何可迭代对象)解包,并将得到的值存储到一系列变量中. 一般情况下要解包的序列包含的元素个数必须与你在等 ...

  4. 第8.8节 Python使用__new__方法和构造方法__init__完成类实例化的过程详解

    第8.8节 Python使用__new__方法和构造方法__init__完成类实例化的过程详解 前面章节介绍了Python类中的__new__方法和构造方法__init__,并通过实例分析了二者之间关 ...

  5. 第四章 、PyQt中的信号(signal)和槽(slot)机制以及Designer中的使用

    老猿Python博文目录 专栏:使用PyQt开发图形界面Python应用 老猿Python博客地址 一.引言 前面章节其实已经在使用信号和槽了,但是作为Qt中最重要的机制也是Qt区别与其他开发平台的重 ...

  6. HDFS客户端操作(JAVA代码)

    环境准备 windows需要配置hadoop的windows下的依赖 安装包地址: 链接:https://pan.baidu.com/s/1QtbH-x-S0QytkmaoSosdEw 提取码:2kt ...

  7. let和var变量的思考

    刚学JavaScript,纠结全局变量用var 还是 let. 这篇文章[来源于知乎]表示 在定义全局变量时,var 和 let 的作用相同. 那么现在基本遵守ES6规范的前提下,函数变量还是for循 ...

  8. (干货)构建镜像之Dockerfile

    Dockerfile是一个文本文件,记录了镜像构建的所有步骤. 饭提示:学习Dockerfile构建镜像,就是在学习Dockerfile文件构建的命令+shell脚本语句 Dockerfile简单介绍 ...

  9. word IF嵌套实现登记学生成绩(合格,良好,优秀)

    word IF函数 IF语法 IF(判断条件,条件成立的动作,条件不成立的动作),以逗号(英文)分隔 例:=IF( 0 < 1 , "good" , "bad&qu ...

  10. Angular学习知识点记录

    问:版本直接跳转到Angular4? 答:为了遵循严格的版本策略.在angular2.x的时候,angular route的版本已经是版本3了.因此为了版本统一,angular直接从2跳到了4,.参考 ...