KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析

案例说明：

本案例通过对KingbaseES V8R3集群failover切换过程进行观察，分析了主备库切换后wal日志的变化，对应用者了解KingbaseES V8R3(R6) failover切换过程有一定的帮助。

以下为现场案例：

failover切换后主备库的wal日志信息：

新主库数据库服务启动故障：（sys_log）

=如下所示，在sys_log中，新主库启动startup后，建立流复制，流复制的起始wal日志是：“ 00000004000000050000002A”，导致复制失败。=

适用版本：

KingbaseES V8R3/R6

节点信息：

集群节点状态信息：

[kingbase@node102 bin]$ ./ksql -U SYSTEM -W 123456 TEST -p 9999

ksql (V008R003C002B0290)

Type "help" for help.

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | standby | 0          | true              | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | primary | 0          | false             | 0

(2 rows)

一、查看failover切换前节点信息

1、原主库wal日志

[kingbase@node102 sys_xlog]$ ls -lh

.......

-rw------- 1 kingbase kingbase  16M Jul  7 15:25 00000009000000000000002D.partial

-rw------- 1 kingbase kingbase  339 Jul  7 15:09 00000009.history

-rw------- 1 kingbase kingbase  16M Jul 29 10:56 0000000A000000000000002D

-rw------- 1 kingbase kingbase  16M Jul 29 16:32 0000000A000000000000002E

-rw------- 1 kingbase kingbase  16M Aug  3 10:22 0000000A000000000000002F

-rw------- 1 kingbase kingbase  382 Jul  7 15:25 0000000A.history

2、原主库控制文件信息

[kingbase@node102 bin]$ ./sys_controldata -D ../data

sys_control version number:            830

Catalog version number:               201608131

Database system identifier:           7080416207291699599

Database cluster state:               in production

sys_control last modified:             Wed 03 Aug 2022 10:26:57 AM CST

Latest checkpoint location:           0/2F000108

Prior checkpoint location:            0/2F000028

Latest checkpoint's REDO location:    0/2F0000D0

Latest checkpoint's REDO WAL file:    0000000A000000000000002F

Latest checkpoint's TimeLineID:       10

Latest checkpoint's PrevTimeLineID:   10

3、备库wal日志

[kingbase@node101 bin]$ ls -lh ../data/sys_xlog

.......

-rw------- 1 kingbase kingbase  16M Jul  7 15:25 00000009000000000000002D

-rw------- 1 kingbase kingbase  339 Jun 22 16:15 00000009.history

-rw------- 1 kingbase kingbase  16M Jul 29 16:14 0000000A000000000000002D

-rw------- 1 kingbase kingbase  16M Aug  3 10:22 0000000A000000000000002E

-rw------- 1 kingbase kingbase  16M Aug  3 10:27 0000000A000000000000002F

-rw------- 1 kingbase kingbase  382 Jul 29 10:33 0000000A.history

4、备库控制文件信息

[kingbase@node101 bin]$ ./sys_controldata -D ../data

sys_control version number:            830

Catalog version number:               201608131

Database system identifier:           7080416207291699599

Database cluster state:               in archive recovery

sys_control last modified:             Wed 03 Aug 2022 10:26:55 AM CST

Latest checkpoint location:           0/2F000028

Prior checkpoint location:            0/2E0002C8

Latest checkpoint's REDO location:    0/2F000028

Latest checkpoint's REDO WAL file:    0000000A000000000000002F

Latest checkpoint's TimeLineID:       10

Latest checkpoint's PrevTimeLineID:   10

二、执行failover切换（关闭主库数据库服务）

1、关闭主库数据库服务

[kingbase@node102 bin]$ ./sys_ctl stop -D ../data

waiting for server to shut down....... done

server stopped

三、failover切换完成主备状态信息

1、新主库wal日志

[kingbase@node101 bin]$ ls -lh ../data/sys_xlog

.......

-rw------- 1 kingbase kingbase  339 Jun 22 16:15 00000009.history

-rw------- 1 kingbase kingbase  16M Jul 29 16:14 0000000A000000000000002D

-rw------- 1 kingbase kingbase  16M Aug  3 10:22 0000000A000000000000002E

-rw------- 1 kingbase kingbase  16M Aug  3 10:30 0000000A000000000000002F

-rw------- 1 kingbase kingbase  16M Aug  3 10:30 0000000A0000000000000030.partial

-rw------- 1 kingbase kingbase  382 Jul 29 10:33 0000000A.history

-rw------- 1 kingbase kingbase  16M Aug  3 10:31 0000000B0000000000000030

-rw------- 1 kingbase kingbase  426 Aug  3 10:30 0000000B.history

切换完成后timeline发生切换：

查看timeline history文件信息：

2、新主库控制文件信息

[kingbase@node101 bin]$  ./sys_controldata -D ../data

sys_control version number:            830

Catalog version number:               201608131

Database system identifier:           7080416207291699599

Database cluster state:               in production

sys_control last modified:             Wed 03 Aug 2022 10:35:48 AM CST

Latest checkpoint location:           0/3005E110

Prior checkpoint location:            0/30004BD8

Latest checkpoint's REDO location:    0/3005B370

Latest checkpoint's REDO WAL file:    0000000B0000000000000030

Latest checkpoint's TimeLineID:       11

Latest checkpoint's PrevTimeLineID:   11

3、新备库wal日志

[kingbase@node102 bin]$ ls -lh ../data/sys_xlog

.......

-rw------- 1 kingbase kingbase  16M Jul 29 10:56 0000000A000000000000002D

-rw------- 1 kingbase kingbase  16M Jul 29 16:32 0000000A000000000000002E

-rw------- 1 kingbase kingbase  16M Aug  3 10:34 0000000A000000000000002F

-rw------- 1 kingbase kingbase  16M Aug  3 10:34 0000000A0000000000000030.partial

-rw------- 1 kingbase kingbase  382 Aug  3 10:34 0000000A.history

-rw------- 1 kingbase kingbase  16M Aug  3 10:34 0000000B0000000000000030

-rw------- 1 kingbase kingbase  426 Aug  3 10:34 0000000B.history

4、新备库控制文件信息

[kingbase@node102 bin]$ ./sys_controldata -D ../data

sys_control version number:            830

Catalog version number:               201608131

Database system identifier:           7080416207291699599

Database cluster state:               in archive recovery

sys_control last modified:             Wed 03 Aug 2022 10:35:42 AM CST

Latest checkpoint location:           0/30004BD8

Prior checkpoint location:            0/30004BD8

Latest checkpoint's REDO location:    0/30004BA0

Latest checkpoint's REDO WAL file:    0000000B0000000000000030

Latest checkpoint's TimeLineID:       11

Latest checkpoint's PrevTimeLineID:   11

四、将原主库作为备库恢复到集群

1、在原主库data下创建recovery.conf

[kingbase@node102 data]$ cp ../etc/recovery.done ./recovery.conf

2、查看recovery.log信息

primary node/Im node status is changed, primary ip[192.168.1.101], recovery.conf NEED_CHANGE [0] (0 is need ), I,m status is [1] (1 is down), I will be in recovery.

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+-------------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | true              | 0

 1       | 192.168.1.102 | 54321 | down   | 0.500000  | standby | 0          | false             | 0

(2 rows)

if recover node up, let it down , for rewind

2022-08-03 10:34:35 sys_rewind...

sys_rewind  --target-data=/home/kingbase/cluster/R3HA/db/data --source-server="host=192.168.1.101 port=54321 user=SUPERMANAGER_V8ADMIN dbname=TEST"

datadir_source = /home/kingbase/cluster/R3HA/db/data

rewinding from last common checkpoint at 0/2F000108 on timeline 10

find last common checkpoint start time from 2022-08-03 10:34:35.349563 CST to 2022-08-03 10:34:35.405349 CST, in "0.055786" seconds.

reading source file list

reading target file list

reading WAL in target

Rewind datadir file from source

update the control file: minRecoveryPoint is '0/3004D0C8', minRecoveryPointTLI is '11', and database state is 'in archive recovery'

rewind start wal location 0/2F0000D0 (file 0000000A000000000000002F), end wal location 0/3004D0C8 (file 0000000B0000000000000030). time from 2022-08-03 10:34:37.349563 CST to 2022-08-03 10:34:37.872586 CST, in "2.523023" seconds.

Done!

 sed conf change #synchronous_standby_names

2022-08-03 10:34:39 file operate

cp recovery.conf...

 change recovery.conf ip -> primary.ip

2022-08-03 10:34:39 change recovery.conf

delete pid file if exist

del the replication_slots if exis

drop the slot [slot_node101].

drop the slot [slot_node102].

2022-08-03 10:34:40 start up the kingbase...

waiting for server to start....LOG:  redirecting log output to logging collector process

HINT:  Future log output will appear in directory "/home/kingbase/cluster/R3HA/db/data/sys_log".

 done

server started

ksql "port=54321 user=SUPERMANAGER_V8ADMIN dbname=TEST connect_timeout=10"   -c "select 33333;"

 SYS_CREATE_PHYSICAL_REPLICATION_SLOT

--------------------------------------

 (slot_node101,)

(1 row)

2022-08-03 10:34:42 create the slot [slot_node101] success.

 SYS_CREATE_PHYSICAL_REPLICATION_SLOT

--------------------------------------

 (slot_node102,)

(1 row)

2022-08-03 10:34:42 create the slot [slot_node102] success.

2022-08-03 10:34:42 start up standby successful!

can not get the replication of myself

如下所示：recovery过程：

五、总结

在集群执行failover切换时，可以结合wal日志和recovery.log和控制文件的变化，可以详细了解failover切换中wal日志的变化，及通过sys_rewind工具对原主库的恢复过程。

KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析的更多相关文章

KingbaseES V8R3集群管理维护案例之---集群迁移单实例架构
案例说明: 在生产中,需要将KingbaseES V8R3集群转换为单实例架构,可以采用以下方式快速完成集群架构的迁移. 适用版本: KingbaseES V8R3 当前数据库版本: TEST=# s ...
KingbaseES V8R6集群管理运维案例之---repmgr standby switchover故障
案例说明: 在KingbaseES V8R6集群备库执行"repmgr standby switchover"时,切换失败,并且在执行过程中,伴随着"repmr stan ...
KingbaseES V8R3集群维护案例之---在线添加备库管理节点
案例说明: 在KingbaseES V8R3主备流复制的集群中 ,一般有两个节点是集群的管理节点,分为master和standby:如对于一主二备的架构,其中有两个节点是管理节点,三个数据节点:管理节 ...
KingbaseES V8R3集群运维案例之---主库系统down failover切换过程分析
案例说明: KingbaseES V8R3集群failover时两个cluster都会触发,但只有一个cluster会调用脚本去执行真正的切换流程,另一个有对应的打印,但不会调用脚本,只是走相关的 ...
KingbaseES R3 集群主库归档失败案例
案例说明: 本案例用于KingbaseES R3集群归档进程归档日志失败的处理,对于一线的生产环境具有一定的参考意义. 数据库版本: TEST=# select version(); VERSION ...
KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
KingbaseES V8R3 集群专用机网关失败分析案例
KingbaseES R3集群网关检测工作机制: 1.Cluster下watchdog进程在固定间隔时间,通过ping 网关地址监控链路的连通性,如果连通网关地址失败,则修改cluster sta ...
KingbaseES R6 集群手工配置VIP案例
经常有用户问,V8R6集群搭建时没有配置VIP,搭建完成后,如何添加VIP?以下向大家介绍下手动添加VIP 的过程. 一.操作系统环境操作系统(UOS): root@uos01:~# cat /et ...
KingbaseES V8R6集群维护案例之---停用集群node_export进程
案例说明: 在KingbaseES V8R6集群启动时,会启动node_exporter进程,此进程主要用于向kmonitor监控服务输出节点状态信息.在系统安全漏洞扫描中,提示出现以下安全漏洞: 对 ...

随机推荐

HDLBits->Circuits->Arithmetic Circuitd->3-bit binary adder
Verilog实例数组对于一个定义好的简单module,例如加法器之类,如果我们要对其进行几十次几百次的例化,并且这些例化基本都是相同的形式,那么我们肯定不能一个个的单独对其进行例化,此时我们就可以 ...
如何用python做出老师看了都给满分的GUI学生管理系统毕设
序言哈喽大家好鸭!我是小熊猫最近有什么有趣的事情发生吗?快来说给我听听( •̀ ω •́ )✧表弟大学快毕业了,学了一个学期Python居然还不会写学生管理系统,真的给我丢脸啊,教他又不肯学,还 ...
Rabbimtq消息传递对象
对象序列化即可.
Unsupported major.minor version 52.0 (unable to load class org.apache.kafka.clients.producer.Produce异常解决方法
在控制台输入java -version,查看自己的版本是多少,我的查出来是1.8的.随后将服务器上的改为1.8的就可以了.
Python之枚举法解数学题
作为初二的学生,数学题总是令我苦恼的问题.尤其是我们这里的预备班考试(即我们这里最好的两所高中提前一年招生,选拔尖子生的考试)将近,我所面对的数学题越发令人头疼. 这不,麻烦来了: 如图,在正方形AB ...
browserify的standalone的含义
白话:就像Jquery的$, 把你打包后的函数挂在window下你指定的名字下废话:白话看不懂,就看下面的废话,你不得不花更多时间理解--standalone AAA的含义$ browserify ...
Thread类的常用方法_sleep和创建多线程程序的第二种方式_实现Runnable接口
sleep方法是在Thread类中的一个静态方法,当一个线程调用了sleep方法,被调用的那个线程就会暂时的让出指定时间的CPU执行权,在这段时间也不会参与CPU的调度,当时间到了之后,就会重新回到就 ...
用cmd命令进行磁盘清理（主要是系统盘）
作用:清理磁盘(主要是系统盘)中不需要的垃圾文件操作方法: 第一步:Windows键+R键调出cmd命令窗口(窗口图如下:) 第二步:输入框中输入cmd命令,按下Enter键,进入如下图界面: 第三 ...
.NET 跨平台应用开发动手教程｜用 Uno Platform 构建一个 Kanban-style Todo App
作者:Steven Giesel 翻译:Alan Wang 校对:李卫涵 – 微软 MVP 排版:Rani Sun 有什么比参考包含分步说明和代码示例的动手教程更好的学习新技术的方式呢?当你完成或 f ...
Axure RP 8 实现圆角文本框圆角带筛选的下拉列表框可自动显示滚动条
刚开始用Axure 会发现 Axure 元件库并不是很齐全,很多元件需要自己想办法解决或者去网上去找.其实个人建议网上有现成的元件可以就下载就不必花时间去折腾.除非你也想练练手,原型这种东西除非高保 ...

KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析

KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析的更多相关文章

随机推荐

热门专题