KingbaseES V8R3 集群运维案例 -- cluster.log无日志输出问题诊断

案例说明：

KingbaseES V8R3集群正常运行期间，现场发现cluster.log日志无任何信息输出，针对这一问题做了复现及提出解决方案。后现场检查发现，cluster.log文件曾被删除：

适用版本：

KingbaseES V8R3

一、查看集群的服务状态

1、集群节点状态

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | repli

cation_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+------

-------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | false             | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | standby | 0          | true              | 0

(2 rows)

2、流复制状态

TEST=# select * from sys_stat_replication;

 PID  | USESYSID | USENAME | APPLICATION_NAME |  CLIENT_ADDR  | CLIENT_HOSTNAME | CLIENT_PORT |

BACKEND_START         | BACKEND_XMIN |   STATE   | SENT_LOCATION | WRITE_LOCATION | FLUSH_LOCATION | REP

LAY_LOCATION | SYNC_PRIORITY | SYNC_STATE

------+----------+---------+------------------+---------------+-----------------+-------------+---------

----------------------+--------------+-----------+---------------+----------------+----------------+----

-------------+---------------+------------

 1366 |       10 | SYSTEM  | node2            | 192.168.1.102 |                 |       38968 | 2023-04-

12 14:29:09.881587+08 |              | streaming | 1/2E0001B0    | 1/2E0001B0     | 1/2E0001B0     | 1/2

E0001B0      |             0 | async

(1 row)

二、通过lsof查看进程访问的文件

1、查看kingbasecluster进程访问的日志文件

[root@node101 ~]# cd /home/kingbase/cluster/HAR3/db/bin

[root@node101 bin]# lsof -c kingbasecluster |grep cluster.log

kingbasec 1689 root    1w      REG              253,2 29453500  34403567 /home/kingbase/cluster/HAR3/log/cluster.log

kingbasec 1689 root    2w      REG              253,2 29453500  34403567 /home/kingbase/cluster/HAR3/log/cluster.log

kingbasec 1724 root    1w      REG              253,2 29453500  34403567 /home/kingbase/cluster/HAR3/log/cluster.log

---如上所示，kingbasecluster服务启动后会访问cluster.log日志文件。

2、检查cluster.log对应的进程

[root@node101 bin]# lsof /home/kingbase/cluster/HAR3/log/cluster.log

COMMAND    PID USER   FD   TYPE DEVICE SIZE/OFF     NODE NAME

kingbasec 1689 root    1w   REG  253,2 29455673 34403567 /home/kingbase/cluster/HAR3/log/cluster.log

kingbasec 1689 root    2w   REG  253,2 29455673 34403567 /home/kingbase/cluster/HAR3/log/cluster.log

kingbasec 1724 root    1w   REG  253,2 29455673 34403567 /home/kingbase/cluster/HAR3/log/cluster.log

# 查看对应的进程

[root@node101 bin]# ps -ef |grep 1689

root      1689     1  0 14:29 ?        00:00:00 ./kingbasecluster -n

root      1724  1689  0 14:29 ?        00:00:00 kingbasecluster: watchdog

root      1788  1689  0 14:29 ?        00:00:00 kingbasecluster: lifecheck

root      1794  1689  0 14:29 ?        00:00:00 kingbasecluster: wait for connection request

root      1795  1689  0 14:29 ?        00:00:00 kingbasecluster: wait for connection request

root      1796  1689  0 14:29 ?        00:00:00 kingbasecluster: wait for connection request

---如上所示，cluster.log日志文件会被kingbasecluster访问。

三、模拟cluster.log文件被删除

1、将cluster.log文件改名

[root@node101 log]# ls -lh cluster*

-rw-r--r-- 1 root root 2.4M Apr 12 14:33 cluster_restart.log

-rw-r--r-- 1 root root  110 Apr 12 14:09 clusterstop

[root@node101 log]# mv cluster.log cluster.log.bk

[root@node101 log]# ls -lh cluster*

-rw-r--r-- 1 root root  29M Apr 12 14:33 cluster.log.bk

-rw-r--r-- 1 root root 2.4M Apr 12 14:33 cluster_restart.log

-rw-r--r-- 1 root root  110 Apr 12 14:09 clusterstop

2、通过lsof查看kingbasecluster进程访问的日志文件

# 如下所示，kingbasecluster输出日志文件为cluster.log.bk

[root@node101 log]# lsof -c kingbasecluster |grep cluster.log

kingbasec 1689 root    1w      REG              253,2 29464573  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk

kingbasec 1689 root    2w      REG              253,2 29464573  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk

kingbasec 1724 root    1w      REG              253,2 29464573  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk

# 删除cluster.log.bk文件

[root@node101 log]# rm cluster.log.bk

[root@node101 log]# lsof -c kingbasecluster |grep cluster.log

kingbasec 1689 root    1w      REG              253,2 29467057  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk (deleted)

kingbasec 1689 root    2w      REG              253,2 29467057  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk (deleted)

kingbasec 1724 root    1w      REG              253,2 29467057  34403567 /home/kingbase/cluster/HAR3/log/cluster.log.bk (deleted)

# 手工创建cluster.log文件

[root@node101 log]# touch cluster.log

[root@node101 log]# lsof /home/kingbase/cluster/HAR3/log/cluster.log

---如上所示，手工创建cluster.log文件后，也没有被kingbasecluster进程访问。

如下图所示，删除cluster.log后，lsof标识文件被‘delete’：

四、测试failover切换

1、切换前集群节点状态

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | repli

cation_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+------

-------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | primary | 0          | false             | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | standby | 0          | true              | 0

(2 rows)

2、模拟主库数据库服务down

[kingbase@node101 bin]$ ./sys_ctl stop -D ../data

waiting for server to shut down.... done

server stopped

3、查看切换后的新主库

TEST=# select sys_is_in_recovery();

 SYS_IS_IN_RECOVERY

--------------------

 f

(1 row)

4、切换后集群节点状态

TEST=# show pool_nodes;

 node_id |   hostname    | port  | status | lb_weight |  role   | select_cnt | load_balance_node | repli

cation_delay

---------+---------------+-------+--------+-----------+---------+------------+-------------------+------

-------------

 0       | 192.168.1.101 | 54321 | up     | 0.500000  | standby | 0          | false             | 0

 1       | 192.168.1.102 | 54321 | up     | 0.500000  | primary | 0          | true              | 0

(2 rows)

---如上所示，对于cluster.log文件被误删除，不会影响到集群的切换。

五、恢复cluster.log日志输出

Tips：

如果需要kingbasecluster重新输出日志到cluster.log文件，需要重启kingbasecluster服务，可以通过root用户执行restartcluster.sh；但是必须先kill原来的kingbasecluster进程，然后再执行此脚本。这样可以在不影响数据库服务的情况下，重启集群服务。

1、查看kingbasecluster进程

[root@node101 ~]# ps -ef |grep kingbasecluster

root      1689     1  0 14:29 ?        00:00:00 ./kingbasecluster -n

.......

2、kill进程（注意：不用kill -9）

[root@node101 ~]# kill -2 1689

[root@node101 ~]# ps -ef |grep kingbasecluster

3、执行restartcluster.sh

[root@node101 ~]# /home/kingbase/cluster/HAR3/kingbasecluster/bin/restartcluster.sh

# 进程重启pid发生变化

[root@node101 ~]# ps -ef |grep kingbasecluster

root     14943     1  0 14:50 pts/0    00:00:00 ./kingbasecluster -n

.......

4、查看cluster.log日志输出

[root@node101 ~]# tail -f  /home/kingbase/cluster/HAR3/log/cluster.log

2023-04-12 14:50:46: pid 14943: LOG:  Setting up socket for :::9999

2023-04-12 14:50:46: pid 14943: LOG:  kingbasecluster successfully started. version 3.6.7 (release)

2023-04-12 14:50:47: pid 14966: LOG:  creating socket for sending heartbeat

2023-04-12 14:50:47: pid 14966: DETAIL:  bind send socket to device: enp0s3

.......

六、总结

对于集群及数据库服务的日志文件，不要轻易通过手工方式删除文件，如果文件日益增大占用磁盘空间，可以通过Linux系统的logrotate工具切割日志文件并自动删除陈旧日志文件。

通过restartcluster.sh重启集群kingbasecluster服务，不影响集群的正常访问，但是会导致cluster vip漂移，对于生产环境，应该在业务访问低峰期间执行。

KingbaseES V8R3 集群运维案例 -- cluster.log无日志输出问题诊断的更多相关文章

KingbaseES V8R3集群运维案例之---cluster.log ERROR: md5 authentication failed
案例说明: 在KingbaseES V8R3集群的cluster.log日志中,经常会出现"ERROR: md5 authentication failed:DETAIL: password ...
KingbaseES V8R3集群运维案例之---主库系统down failover切换过程分析
案例说明: KingbaseES V8R3集群failover时两个cluster都会触发,但只有一个cluster会调用脚本去执行真正的切换流程,另一个有对应的打印,但不会调用脚本,只是走相关的 ...
KingbaseES V8R3集群运维案例之---kingbase_monitor.sh启动”two master“案例
案例说明: KingbaseES V8R3集群,执行kingbase_monitor.sh启动集群,出现"two master"节点的故障,启动集群失败:通过手工sys_ctl启动 ...
KingbaseES V8R3集群运维案例之---用户自定义表空间管理
案例说明: KingbaseES 数据库支持用户自定义表空间的创建,并建议表空间的文件存储路径配置到数据库的data目录之外.本案例复现了,当用户自定义表空间存储路径配置到data下时,出现的故障问 ...
KingbaseES V8R6集群运维案例之---repmgr standby promote应用案例
案例说明: 在容灾环境中,跨区域部署的异地备节点不会自主提升为主节点,在主节点发生故障或者人为需要切换时需要手动执行切换操作.若主节点已经失效,希望将异地备机提升为主节点. $bin/repmgr s ...
KingbaseES V8R3集群管理维护案例之---集群迁移单实例架构
案例说明: 在生产中,需要将KingbaseES V8R3集群转换为单实例架构,可以采用以下方式快速完成集群架构的迁移. 适用版本: KingbaseES V8R3 当前数据库版本: TEST=# s ...
KingbaseES V8R3集群维护案例之---pcp_node_refresh应用
案例说明: 在一次KingbaseES V8R3集群切换分析中,运维人员执行了pcp_node_refresh,导致集群发生了failover的切换.此文档对pcp_node_refresh工具做了应 ...
KingbaseES V8R3集群管理和维护案例之---failover切换wal日志变化分析
案例说明: 本案例通过对KingbaseES V8R3集群failover切换过程进行观察,分析了主备库切换后wal日志的变化,对应用者了解KingbaseES V8R3(R6) failover ...
KingbaseES V8R3集群维护案例之---在线添加备库管理节点
案例说明: 在KingbaseES V8R3主备流复制的集群中 ,一般有两个节点是集群的管理节点,分为master和standby:如对于一主二备的架构,其中有两个节点是管理节点,三个数据节点:管理节 ...
PB 级大规模 Elasticsearch 集群运维与调优实践
PB 级大规模 Elasticsearch 集群运维与调优实践 https://mp.weixin.qq.com/s/PDyHT9IuRij20JBgbPTjFA | 导语腾讯云 Elasticse ...

随机推荐

【Android】使用ContentProvider实现跨进程通讯
1 前言 ContentProvider 即内容提供器,是 Android 四大组件之一,为 App 存取数据提供统一的对外接口,让不同的应用之间可以共享数据. 如图,Server 端通过 C ...
col命令
col命令在很多UNIX说明文件里,都有RLF控制字符,当我们把说明文件的内容输出成纯文本文件时,控制字符会变成乱码,col命令则能有效滤除这些控制字符. 语法 col [options] 参数 - ...
Laravel入坑指南(6)——Redis缓存
写在前面: Redis是常用nosql服务之一,在Redis官网上最新的稳定版本是6.0.6.这里不讨论Redis服务如何编译,如何使用.在Redis官网有很健全的文档. 这里要讨论的是无论在cent ...
Java实现文件下载断点续传（一）
参考文章:https://www.ibm.com/developerworks/cn/java/joy-down/ 1.原理介绍想象一下我们下载一个10G的文件,当下载到9.99G的时候断网了... ...
.NET高级调试之sos命令输出看不懂怎么办
一:背景 1. 讲故事很多.NET开发者在学习高级调试的时候,使用sos的命令输出会发现这里也看不懂那里也看不懂,比如截图中的这位朋友. .NET高级调试属于一个偏冷门的领域,国内可观测的资料比较少 ...
django中如果不是第一次迁移的时候就配置AUTH_USER_MODEL(用来告知django认证系统识别我们自定义的模型类)，那么该如何解决才能让django的认证系统识别且不会报未知错误？
Django认证系统中提供的用户模型类及方法很方便,我们可以使用这个模型类,但是字段有些无法满足项目需求,如还需要保存用户的手机号,需要给模型类添加额外的字段. Django提供了django.con ...
golang中关于map的value类型定义为函数类型时(方法值)的一点点思考
文章的内容仅仅是自己关于map的value类型定义为函数类型时的一点点思考,如有不对的地方,请不吝赐教. 学习过后才知道叫做方法值. 1.起因最近在看老项目代码时,看到了一段类似于下面的定义,最开 ...
[Rust] Workspace，Package, Crate 和 Module
package(包) 一个 package 对应一个项目,package 的信息在 Cargo.toml 里面定义. crate(木箱.箱子) crate 指的是 package 编译后的输出文件.以 ...
搭建一个Java项目可直接拿去使用的通用工具类
1.通用枚举类 import lombok.Getter; /** * @Description 状态码定义约束,共6位数,前三位代表服务,后3位代表接口 * 比如商品服务210,购物车是220.用 ...
SSRF概述
SSRF(service side request forgery) 1.攻击的目标: 从外网无法访问的内部系统 2.形成的原因: 大部分是由服务器端提供了从其他服务器应用获取数据的功能.且没有对目标 ...

KingbaseES V8R3 集群运维案例 -- cluster.log无日志输出问题诊断

KingbaseES V8R3 集群运维案例 -- cluster.log无日志输出问题诊断的更多相关文章

随机推荐

热门专题