本文分享自华为云社区《GaussDB(DWS)中的分布式死锁问题实践》,作者: 他强由他强 。

1、什么是分布式死锁

分布式死锁是相对于单机死锁而言,一个事务块中的语句,可能会分散在集群里多个节点(CN/DN)执行,在不同节点上可能都会持有锁,当并发事务进行时可能会导致分布式(全局)死锁,如下图所示,会话SESSION1持有了DN1上的lock1资源后再去请求DN2上的lock2,会话SESSION2持有了DN2上的lock2资源后再去请求DN1上的lock1,两个会话形成互相等待。出现分布式死锁现象后,如果没有外部干预,通常是一方等待锁超时报错后,事务回滚清理持有锁资源,另一方可继续执行。

2、常见的分布式死锁场景

一般来说,分布式死锁的产生与在不同节点上的并发时序或持锁顺序有关,所以现网实际发生概率较低,分布式死锁通常都是RegularLock类型,下面是几种常见的分布式死锁场景,举例说明两个并发事务产生的分布式死锁:

1)锁升级

# 集群两个CN,两个DN
create table mytable(a int, b int);
insert into mytable values(1,1),(2,2);

其中sessionA与sessionB由不同CN发起(sessionA:CN1,session2:CN2),执行时序如下:

session A(CN1)

session B(CN2)

begin;

begin;

select * from mytable;

// CN1上拿1级表锁

 
 

select * from mytable;

// CN2上拿1级表锁

truncate table mytable;

// CN1上拿8级表锁

// CN2上拿8级表锁,waiting

 
 

truncate table mytable;

// CN1上拿8级表锁,waiting

可以看到sessionA里select会持有本地1级锁,truncate会持有8级锁,出现锁升级现象,导致sessionA在CN2上等锁,sessionB在CN1上等锁,形成相互等待。

2)行更新冲突

# 集群两个CN,两个DN
create table mytable(a int, b int);
insert into mytable values(1,1),(2,2);

行存表发生行更新冲突是比较常见的分布式死锁场景。因为表是round robin分布,所以行a = 1 与 a = 2数据可以保证分别分布在DN1和DN2节点。

一个事务在更新数据时需要在对应DN节点持有本xid事务锁的Exclusive锁,当发生行更新冲突时(写写冲突),一个事务需要阻塞等待另一个事务提交(等待获取对方事务锁ShareLock),形成相互等待时造成分布式死锁。

其中sessionA与sessionB可由相同或者不同CN发起,执行时序如下:

session A(xid1)

session B(xid2)

begin;

begin;

update mytable set b = 1 where a = 1;

// DN1上拿xid1的事务锁

 
 

update mytable set b = 2 where a = 2;

// DN2上拿xid2的事务锁

update mytable set b = 1 where a = 2;

// DN2上拿xid2的事务锁,waiting

 
 

update mytable set b = 2 where a = 1;

// DN1上拿xid1的事务锁,waiting

3)CU更新冲突

# 集群两个CN,两个DN
create table mytable(a int, b int) with (orientation = column);
insert into mytable values(1,1),(2,2),(3,3),(4,4);

其中sessionA与sessionB可由相同或者不同CN发起,执行时序如下:

session A(xid1)

session B(xid2)

begin;

begin;

update mytable set b = 1 where a = 1;

// DN1上拿xid1的事务锁

 
 

update mytable set b = 2 where a = 2;

// DN2上拿xid2的事务锁

update mytable set b = 1 where a = 3;

// DN2上拿xid2的事务锁,waiting

 
 

update mytable set b = 2 where a = 4;

// DN1上拿xid1的事务锁,waiting

当出现更新冲突时,对于行存表来说是对一行数据加锁(如场景2所述),但对于列存表来说是对一个CU加锁。所以一个事务里的更新语句如果涉及到不同的CU,也会拿事务锁,可能就会产生分布式死锁。

我们可以通过如下语句观察ctid信息判断数据是否分布在同一个CU上,如下图:可以看到a = 1 与 a = 3分布在DN1上,且在同一个CU;a = 2 与 a = 4分布在DN2上,且在同一个CU。所以这也能解释为什么看上去列存表更新不同的“行数据”也会产生锁阻塞和分布式死锁现象。

4)单语句出现分布式死锁

前面几种场景都是事务块里涉及到多条SQL语句,可能会到不同节点上去交错拿锁导致的分布式死锁,但有时候某些单语句场景可能也会出现分布式死锁,如下:

session A(xid1)

session B(xid2)

update/delete mytable set b = 1 where a = 1;

// waiting

update/delete mytable set b = 2 where a = 2;

// waiting

此类问题与数据分布有关,如下场景都可能会导致这个现象:

1)若表是复制表,每个DN节点上都有数据,更新时会去所有DN并发执行

2)表是普通行存表或列存表,但有行数据(如a=1)同时分布在了多个DN节点上,如round robin分布下插入两条相同a=1的数据

insert into mytable values(1,1);
insert into mytable values(1,2);

此场景需要具体去排查数据分布是否会造成此情况。

3、规避分布式死锁的方法

1)控制锁级别,减少锁升级

按照各类操作的锁级别建议规则使用,开发时不要盲目提高锁级别,造成可能发生的不必要的锁等待

2)控制锁粒度

合理控制锁使用范围,及时释放

3)控制拿锁顺序

尽量控制对资源操作的顺序,比如对各分区表的操作顺序,避免乱序造成的死锁。但全局各节点的拿锁情况或顺序一般无法提前预测,往往为了考虑提高性能,请求会在节点间并发执行,但我们可以在某个节点上控制并发互斥以规避分布式死锁问题,如操作某个表时先去FirstCN上请求持锁,持锁成功后再对其他CN和DN并行拿锁。GaussDB(DWS)内核的很多地方的设计中会有这种思想,如DDL语句,autoanalyze等。

4)主动设置较短的锁超时时间

一般用在非关键的用户路径操作上,如用户语句在runtime analyze子事务的流程里会主动设置锁超时时间为2秒,发生阻塞后可及时放锁,避免出现长时间锁等待,也能规避潜在的分布式死锁场景

4、如何排查系统是否产生了分布式死锁

本质上是发现集群中是否有全局的死锁环等待关系,内核中提供有许多视图可以辅助观察持锁等待情况,但需要注意的是,因为查询到的锁等待关系可能只是暂时的瞬间状态,只有持续存在的锁等待才会造成分布式死锁,需要判断锁是否稍后会主动释放(事务提交前),还是只能等到事务提交后释放。如何判断系统是否产生了分布式死锁,有以下方法:

1)查询pgxc_deadlock视图,会输出全局死锁环信息,如果信息为空,则代表无分布式死锁,但需要注意在某些复杂的场景可能会出现误报,即输出有死锁环信息,但可能并没有形成分布式死锁;

当有分布式死锁时,直到等待锁超时后,某一方事务会出现“Lock wait timeout...”,打印具体的锁信息及锁语句,报错后释放锁,另一方解除阻塞。相关的锁超时参数是lockwait_timeout或update_lockwait_timeout。

2)在GaussDB(DWS)的8.3.0版本及以后,内核已经支持了自动化地分布式死锁检测,当检测到系统中存在分布式死锁等待关系后,会自动报错和挑选事务进行cancel,具体原理下一节中会详细介绍。

如下图所示,若用户出现“cancelled by global deadlock detector”报错,代表检测到分布式死锁并被查杀,此时可以去检测CN上(FirstCN或者CCN)上去找相关日志信息,会输出具体死锁和session查杀信息,需要注意用户语句执行CN和检测CN可能并不是一个,此时检测CN会向执行CN发起事务cancel。

5、分布式死锁检测原理

分布式死锁检测的目标原则是做到不误报,争取不漏报,尽量及时报。

我们使用了中心化的收集检测思想,如流程图所示:首先挑选一个CN作为检测CN(类似master角色),CN上新增后台线程启动GlobalDeadlockDetector模块,周期性向集群所有节点收集锁等待关系,计算等待者和持有者信息,然后构造全局有向图(WFG),依赖定义的规则对图的顶点和边进行消除,判断是否能消除完成。如果无法消除完成,则出现了死锁环,并进行二次DoubleCheck,如果两次的死锁环信息有交集,则报告死锁信息。当发现死锁后,按照事务时间戳挑选最年轻的事务(youngest)进行中断,并会对用户报错。

我们在设计上主要参考了Greenplum的思路,由于与GaussDB(DWS)架构和应用场景上的差异性,也针对做了一些改造和优化,主要包括:

1、检测节点的选择:在FirstCN或CCN上启动后台检测线程,依赖外部OM模块做高可用切换;

2、等待关系图节点的标识:由检测CN构造全局唯一global_session下发,格式为:timestamp.pid.node_name(timestamp为事务开始的时间戳,pid为执行CN上的线程号,node_name为执行CN名称);

3、虚实边关系定义:支持定义线程级别虚实边,过滤掉不必要的死锁误报;

  • 实边:锁等待关系的变化,需要等到持有者事务会话commit或abort
  • 虚边:锁等待关系的变化,不需要等到持有者事务会话commit或abort

4、死锁结果的合法性检查:增加DoubleCheck机制,提高检测结果准确性,结果以连续两次检测到的死锁环交集为准;

5、死锁消除:执行CN与检测CN可能不同,可能存在跨CN发起的事务中断;

6、与单机死锁检测算法互补:当分布式死锁检测算法如果发现检测到单机的死锁环路等待关系后,则忽略,与单机死锁检测算法处理不冲突;

分布式死锁检测相关参数:

  • enable_global_deadlock_detector:分布式死锁检测功能是否开启,默认off

  • global_deadlock_detector_period:分布式死锁检测周期,默认5秒

点击关注,第一时间了解华为云新鲜技术~

GaussDB(DWS)中的分布式死锁问题实践的更多相关文章

  1. GaussDB(DWS)中共享消息队列实现的三大功能

    摘要:本文将详细介绍GaussDB(DWS)中共享消息队列的实现. 本文分享自华为云社区<GaussDB(DWS)CBB组件之共享消息队列介绍>,作者:疯狂朔朔. 1)共享消息队列是什么? ...

  2. 详解GaussDB(DWS) explain分布式执行计划

    摘要:本文主要介绍如何详细解读GaussDB(DWS)产生的分布式执行计划,从计划中发现性能调优点. 前言 执行计划(又称解释计划)是数据库执行SQL语句的具体步骤,例如通过索引还是全表扫描访问表中的 ...

  3. 仅4步,就可通过SQL进行分布式死锁的检测与消除

    摘要:本文主要介绍在 GaussDB(DWS) 中,如何通过 SQL 语句,对分布式死锁进行检测和恢复. 分布式数仓应用场景中,我们经常遇到数据库系统 hang 住的问题,所谓 hang 是指虽然数据 ...

  4. 十八般武艺玩转GaussDB(DWS)性能调优(三):好味道表定义

    摘要:表结构设计是数据库建模的一个关键环节,表定义好坏直接决定了集群的有效容量以及业务查询性能,本文从产品架构.功能实现以及业务特征的角度阐述在GaussDB(DWS)的中表定义时需要关注的一些关键因 ...

  5. 十八般武艺玩转GaussDB(DWS)性能调优:SQL改写

    摘要:本文将系统介绍在GaussDB(DWS)系统中影响性能的坏味道SQL及SQL模式,帮助大家能够从原理层面尽快识别这些坏味道SQL,在调优过程中及时发现问题,进行整改. 数据库的应用中,充斥着坏味 ...

  6. 基于SpringBoot实现操作GaussDB(DWS)的项目实战

    摘要:本文就使用springboot结合mybatis plus在项目中实现对GaussDB(DWS)的增删改查操作. 本文分享自华为云社区<基于SpringBoot实现操作GaussDB(DW ...

  7. 探索GaussDB(DWS)的过程化SQL语言能力

    摘要:在当前GaussDB(DWS)的能力中主要支持两种过程化SQL语言,即基于PostgreSQL的PL/pgSQL以及基于Oracle的PL/SQL.本篇文章我们通过匿名块,函数,存储过程向大家介 ...

  8. GaussDB(DWS)应用实践丨负载管理与作业排队处理方法

    摘要:本文用来总结一些GaussDB(DWS)在实际应用过程中,可能出现的各种作业排队的情况,以及出现排队时,我们应该怎么去判断是否正常,调整一些参数,让资源分配与负载管理更符合当前的业务:或者在作业 ...

  9. 【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控

    摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案. 本文分享自华为云社区<GaussDB(DWS)运维 -- 单SQL磁盘空间管控>,作者: 譡里个檔. [问题描述] ...

  10. ZooKeeper分布式锁简单实践

    ZooKeeper分布式锁简单实践 在分布式解决方案中,Zookeeper是一个分布式协调工具.当多个JVM客户端,同时在ZooKeeper上创建相同的一个临时节点,因为临时节点路径是保证唯一,只要谁 ...

随机推荐

  1. Andrew Ng 机器学习&深度学习课程 代码作业解答 集合

    写在最前 ​ 2018年是对自己来说是崭新的一年,在过去的3个多月里,从最基础的lr, 学到现在的LSTM, GAN..感觉第一次追上了计算机科学飞速发展的浪潮.虽然很多地方都仍是一知半解,但时间还长 ...

  2. 记一次 Redisson 线上问题 → ERR unknown command 'WAIT' 的排查与分析

    开心一刻 昨晚和一个朋友聊天 我:处对象吗,咱俩试试? 朋友:我有对象 我:我不信,有对象不公开? 朋友:不好公开,我当的小三 问题背景 程序在生产环境稳定的跑着 直到有一天,公司执行组件漏洞扫描,有 ...

  3. Microsoft Build 2021大会开始后,Develop Blog一系列更新

    .NET BLOG 发布.NET 6预览版4 https://devblogs.microsoft.com/dotnet/announcing-net-6-preview-4/ 发布.NET MAUI ...

  4. 一文搞懂 OTP 双因素认证

    GitHub 在 2023 年 3 月推出了双因素认证(two-factor authentication)简称 2FA,并且承诺所有在 GitHub 上贡献的开发者在 2023 年底前启用双因素认证 ...

  5. 什么是 x10 开发工具?「GitHub 热点速览」

    都听过 10x 工程师,一个人顶得过十个人.但是并不是每个人都是 10x 工程师,但是有些效率工具可能让你变成 2x.3x 的工程师.比如,这周火爆的 3D 游戏引擎 FlaxEngine 有着强大的 ...

  6. 若依框架的startPage( )函数怎么自动关联查询SQL语句?

    Question Description 使用JAVA语言的若依框架的时候,发现只要使用了startPage()函数, 并不需要前端传递分页的数据,也不需要注解,就能完成分页功能.预判他应该是使用类似 ...

  7. Python socket实现简单聊天,同步输入和接收消息

    查的资料很多都是必须等待接收数据后才能再次输入.做了修改,使用多线程的形式,实现一边输入,一边接收 服务端代码 import socket import threading import sys im ...

  8. Oracle:字符串的拼接、截取、查找、替换

    一.拼接:1.使用"||"来拼接字符串: select '拼接'||'字符串' as Str from dual; 2.使用concat(param1,param2)函数实现: s ...

  9. CSE 2023 混合年度回声周末

    CSE 2023 混合年度回声周末(2023 年 4 月 13 日至 15 日)25 周年银周年纪念版 近 900 名参与者参加.又是成功的伟大一年.明年 2024 年 4 月在多伦多见.敬请关注全年 ...

  10. maven error

    1 [INFO] Assembling webapp [crm9] in [/home/wukongcrm/72crm-java/target/ROOT] 2 [INFO] Processing wa ...