MGR整个集群挂掉后，如能才能自动选主，不用手动干预

当集群中所有节点都宕机后，集群再次启动后，能否自动选主？

1、所有节点都宕机后，集群重启，能否自动选主和启动

这是个来自群友的问题。

首先，MySQL服务利用 systemd 即可实现故障后自启动，注意下面这个配置即可：

[root@GreatSQL ~]# cat /usr/lib/systemd/system/greatsql.service

...

Restart=on-failure

其次，mysqld进程启动后，想要实现MGR的自动选主及自启动也是可以的，利用MySQL Shell即可，例如：

[root@GreatSQL ~]# mysqlsh --uri greatsql@yejr-mgr3:3306

...

-- 不管干啥，都先看 help，这是玩转Linux的必备素养，啥事不清楚都先找男人（man）

-- 注意到有这样的一个方法 rebootClusterFromCompleteOutage()，看起来没跑了

 MySQL  yejr-mgr3:3306 ssl  JS > \help dba

      rebootClusterFromCompleteOutage([clusterName][, options])

            Brings a cluster back ONLINE when all members are OFFLINE.

-- 跑一个试试看

 MySQL  yejr-mgr3:3306 ssl  JS > dba.rebootClusterFromCompleteOutage()

Restoring the default cluster from complete outage...

The instance 'yejr-mgr4:3306' was part of the cluster configuration.

Would you like to rejoin it to the cluster? [y/N]: y

The instance 'yejr-mgr2:3306' was part of the cluster configuration.

Would you like to rejoin it to the cluster? [y/N]: y

Dba.rebootClusterFromCompleteOutage: The active session instance (yejr-mgr3:3306) isn't the most updated in comparison with the ONLINE instances of the Cluster's metadata. Please use the most up to date instance: 'yejr-mgr4:3306'. (RuntimeError)

可以看到错误信息提示我们当前节点上没有最新的数据，不能直接启动MGR，错误信息中还提供了该去哪个节点启动的建议，所以我们改成在 yejr-mgr4 节点上执行拉起MGR：

[root@GreatSQL ~]# mysqlsh --uri greatsql@yejr-mgr3:3306

...

 MySQL  yejr-mgr4:3306 ssl  JS > dba.rebootClusterFromCompleteOutage()

Restoring the default cluster from complete outage...

The instance 'yejr-mgr3:3306' was part of the cluster configuration.

Would you like to rejoin it to the cluster? [y/N]: y

The instance 'yejr-mgr2:3306' was part of the cluster configuration.

Would you like to rejoin it to the cluster? [y/N]: y

yejr-mgr4:3306 was restored.

Rejoining 'yejr-mgr3:3306' to the cluster.

Rejoining instance 'yejr-mgr3:3306' to cluster 'GreatSQLMGR'...

The instance 'yejr-mgr3:3306' was successfully rejoined to the cluster.

Rejoining 'yejr-mgr2:3306' to the cluster.

Rejoining instance 'yejr-mgr2:3306' to cluster 'GreatSQLMGR'...

The instance 'yejr-mgr2:3306' was successfully rejoined to the cluster.

The cluster was successfully rebooted.

可以看到，MGR集群已经被正常启动了。

上面是利用MySQL Shell启动一个发生过故障的MGR集群，如果是手动的话该怎么办呢？

首先，在各个节点执行下面的SQL，确认各节点当前的事务执行情况：

-- yejr-mgr2节点

root@GreatSQL [none]> select RECEIVED_TRANSACTION_SET from performance_schema.replication_connection_status where

channel_name = 'group_replication_applier' union all

select variable_value from performance_schema.global_variables where

variable_name = 'gtid_executed'\G

*************************** 1. row ***************************

RECEIVED_TRANSACTION_SET:

*************************** 2. row ***************************

RECEIVED_TRANSACTION_SET: 1c293e90-3bdc-11ec-bca1-525400e2078a:1-4537605,

4b7b3b88-3b13-11ec-86e9-525400e2078a:1

-- yejr-mgr3节点

...

*************************** 1. row ***************************

RECEIVED_TRANSACTION_SET:

*************************** 2. row ***************************

RECEIVED_TRANSACTION_SET: 1c293e90-3bdc-11ec-bca1-525400e2078a:1-4542304,

4b7b3b88-3b13-11ec-86e9-525400e2078a:1

-- yejr-mgr4节点

...

*************************** 1. row ***************************

RECEIVED_TRANSACTION_SET:

*************************** 2. row ***************************

RECEIVED_TRANSACTION_SET: 1c293e90-3bdc-11ec-bca1-525400e2078a:1-4652391,

4b7b3b88-3b13-11ec-86e9-525400e2078a:1

从上面的结果可以看到，yejr-mgr4 节点上已执行完的事务GTID值最大：4652391 > 4542304 > 4537605，因此应该选择 yejr-mgr4 节点作为 Primary 节点。

将该节点设置为引导模式，然后启动MGR服务：

[root@GreatSQL ~]# mysql -hyejr-mgr4 -P3306 -ugreatsql -p

...

greatsql@mgr4:3306 [(none)]>set global group_replication_bootstrap_group=ON;

greatsql@mgr4:3306 [(none)]>start group_replication;

-- 启动完MGR后，记得立即将其设置为OFF

greatsql@mgr4:3306 [(none)]>set global group_replication_bootstrap_group=OFF;

在其他节点上，则直接启动MGR服务即可，切记无需再次设置引导模式，否则它就会变成一个全新的MGR集群的Primary节点了。

好了，自动、手动两种方式拉起一个故障MGR集群方法都介绍完毕了。

Enjoy GreatSQL

文章推荐：

技术分享 | MGR最佳实践(MGR Best Practice)

https://mp.weixin.qq.com/s/66u5K7a9u8GcE2KPn4kCaA

技术分享 | 万里数据库MGR Bug修复之路

https://mp.weixin.qq.com/s/IavpeP93haOKVBt7eO8luQ

Macos系统编译percona及部分函数在Macos系统上运算差异

https://mp.weixin.qq.com/s/jAbwicbRc1nQ0f2cIa_2nQ

技术分享 | 利用systemd管理MySQL单机多实例

https://mp.weixin.qq.com/s/iJjXwd0z1a6isUJtuAAHtQ

产品 | GreatSQL，打造更好的MGR生态

https://mp.weixin.qq.com/s/ByAjPOwHIwEPFtwC5jA28Q

产品 | GreatSQL MGR优化参考

https://mp.weixin.qq.com/s/5mL_ERRIjpdOuONian8_Ow

关于 GreatSQL

GreatSQL是由万里数据库维护的MySQL分支，专注于提升MGR可靠性及性能，支持InnoDB并行查询特性，是适用于金融级应用的MySQL分支版本。

Gitee:

https://gitee.com/GreatSQL/GreatSQL

GitHub:

https://github.com/GreatSQL/GreatSQL

微信&QQ群：

可扫码添加GreatSQL社区助手微信好友，发送验证信息“加群”加入GreatSQL/MGR交流微信群，亦可直接扫码加入GreatSQL/MGR交流QQ群。

本文由博客一文多发平台 OpenWrite 发布！

万答#12，MGR整个集群挂掉后，如何才能自动选主，不用手动干预的更多相关文章

cAdvisor0.24.1+InfluxDB0.13+Grafana4.0.2搭建Docker1.12.3 Swarm集群性能监控平台
目录 [TOC] 1.基本概念既然是对Docker的容器进行监控,我们就不自己单独搭建cAdvisor.InfluxDB.Grarana了,本文中这三个实例,主要以Docker容器方式运行. 本 ...
（三）kafka集群扩容后的topic分区迁移
kafka集群扩容后的topic分区迁移 kafka集群扩容后,新的broker上面不会数据进入这些节点,也就是说,这些节点是空闲的:它只有在创建新的topic时才会参与工作.除非将已有的partit ...
集群重启后启动ambari-server访问Web页面无法启动集群解决
集群重启后启动ambari-server访问Web页面无法启动集群解决使用ambari部署的集群重新启动后,必须手动重启ambari-server和所有集群主机上的ambari-agent. amb ...
阿里云EMR集群初始化后的开发准备工作
前言:EMR的集群使用越来越普遍,但是每一次的集群释放到集群的重新创建,期间总有一些反复的工作需要查询与配置.为方便后续工作查阅,现在对集群初始化后的工作进行大概的梳理如下. ...
Hadoop ha CDH5.15.1-hadoop集群启动后，集群容量不正确，莫慌，这是正常的表现！
Hadoop ha CDH5.15.1-hadoop集群启动后,集群容量不正确,莫慌,这是正常的表现! 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.集群启动顺序 1>. ...
Hadoop ha CDH5.15.1-hadoop集群启动后，两个namenode都是standby模式
Hadoop ha CDH5.15.1-hadoop集群启动后,两个namenode都是standby模式作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一说起周五,想必大家都特别 ...
kafka集群扩容后的topic分区迁移
https://www.cnblogs.com/honeybee/p/5691921.html kafka集群扩容后,新的broker上面不会数据进入这些节点,也就是说,这些节点是空闲的:它只有在创建 ...
全网最详细的Hadoop HA集群启动后，两个namenode都是active的解决办法（图文详解）
不多说,直接上干货! 这个问题,跟全网最详细的Hadoop HA集群启动后,两个namenode都是standby的解决办法(图文详解) 是大同小异. 欢迎大家,加入我的微信公众号:大数据躺过的坑 ...
Docker1.12 新增swarm集群
在Docker1.12新版本中,一个新增加的功能点是swarm集群,通过docker命令可以直接实现docker-engine相互发现,并组建成为一个容器集群.有关集群的docker命令如下: (1) ...

随机推荐

一文看懂 ZooKeeper ，面试再也不用背八股（文末送PDF）
ZooKeeper知识点总结一.ZooKeeper 的工作机制二.ZooKeeper 中的 ZAB 协议三.数据模型与监听器四.ZooKeeper 的选举机制和流程本文将以如下内容为主线讲解 ...
124_Power Pivot&Power BI DAX优化计算最大连续次数
博客:www.jiaopengzi.com 焦棚子的文章目录请点击下载附件一.背景最大连续次数或者是最大连续子序列问题,在DAX中如何快速计算呢? 思路 1.N-1:按照INDEX错位 2.ST ...
DCM：一个能够改善所有应用数据交互场景的中间件新秀
摘要:几乎所有涉及应用数据交互的场景都可以通过DCM来改善应用结构,提升开发与计算效率. 本文分享自华为云社区<DCM:中间件家族迎来新成员>,作者: 石臻臻的杂货铺. DCM是什么现代 ...
JavaScript中的??和?.和??=操作符
JS中两种不常使用但挺实用的操作符:??和?. 一起来了解并学会使用它们吧: 空值合并操作符:?? 只有当操作符左侧为null或undefined时才会返回操作符右侧的值,否则返回左侧的值. eg: ...
2020.10.17【普及组】模拟赛C组总结
总结这次比赛 120 分,老师说上 200 是不容易的,但我觉得这不是我真的水平改题情况 T1 题目大意:有 N 个小朋友,每个小朋友有 \(B_i\) 个朋友,问从中随机选 3 人使得 3 人关 ...
[pwn基础]动态链接原理
目录 [pwn基础]动态链接原理动态链接概念动态链接调用so例子 GOT(全局偏移表) got表劫持小实验 PLT(延迟绑定) PLT概念延迟绑定(PLT表) 实战学习 [pwn基础]动态链接原 ...
安装@parcel/transformer-image注意的问题
安装前配置 npm config get cache 键入以上命令即可找到npm缓存路径,然后找到路径下的_libvips文件夹. 一般需要以下两个文件,这里以win环境为例.把文件放到_libvip ...
02 java包装类型的缓存机制
02 java包装类型的缓存机制 Java 基本数据类型的包装类型的大部分都用到了缓存机制来提升性能. Byte,Short,Integer,Long 这 4 种包装类默认创建了数值 [-128,12 ...
UiPath Excel修改操作
一.Excel 修改操作 1．删除行 (1)控件介绍 Insert/Delete Rows: 在特定位置添加或删除指定数量的行常用属性介绍: Destination: NoRows: ...
Linux shell脚本基础
程序的组成: 程序:算法+数据结构数据:程序处理的目标数据结构:相互之间存在一种或多种特定关系的数据元素的集合算法:处理数据的方式编程风格: 面向对象:把所有的操作都转化为对象的方式. 面向过 ...