前言

环境因为一些问题(网络,或者磁盘,或者其它各种异常),引起了集群的状态的一些变化,变化之后,集群的某些虚拟机正常某些虚拟机出现异常,异常现象就是无法启动

特别是win server2008 ,会一直卡在滚动条这里

这个问题很久前碰到过一个哥们出现过,他问我是否遇到过,这个之前遇到过一次无法启动的,通过导出导入的方式解决了,当时一直也没找到原因

这个哥们告诉我,通过关闭rbd的属性后,就可以正常启动了,当时就记了下,也没分析更深层次的原因

最近有一个环境因为时间过快,往回调整了十几分钟,集群出现mon选举,osd出现闪断以后,部分虚拟机出现无法启动的情况

问题分析

导入导出或者克隆基本可以判断数据是没有问题的,那么应该就是其它问题

通过关闭属性可以解决,那么大概能够定位到这几个属性相关的

features: layering, exclusive-lock, object-map, fast-diff, deep-flatten

而锁文件是最大的怀疑,之前处理ctdb的时候,就有过锁没有加上超时时间,然后ctdb挂掉以后,锁不会自动释放的问题,怀疑这个地方类似

我们的rbd的镜像如下

[root@lab101 vm]# rbd info rbd/windows-server-8-base-clone
rbd image 'windows-server-8-base-clone':
size 50GiB in 12800 objects
order 22 (4MiB objects)
block_name_prefix: rbd_data.102376b8b4567
format: 2
features: layering, exclusive-lock, object-map, fast-diff, deep-flatten
flags:
create_timestamp: Fri Dec 18 11:56:27 2020
parent: rbd/windows-server-8-base@for-clone
overlap: 50GiB

这个地方会有两个对象被上锁

[root@lab101 ceph]# rbd lock ls rbd/windows-server-8-base-clone
There is 1 exclusive lock on this image.
Locker ID Address
client.96545 auto 94013702760192 192.168.19.101:0/915896787

object_map的rbd_lock

[root@lab101 ceph]# rados -p rbd lock info rbd_object_map.102376b8b4567 rbd_lock
{"name":"rbd_lock","type":"exclusive","tag":"","lockers":[{"name":"client.96943","cookie":"","description":"","expiration":"0.000000","addr":"192.168.19.101:0/2231653745"}]}

header的rbd_lock,这个跟上面通过rbd lock查到的锁命令是同一个

[root@lab101 ceph]# rados -p rbd lock info rbd_header.102376b8b4567 rbd_lock
{"name":"rbd_lock","type":"exclusive","tag":"internal","lockers":[{"name":"client.96943","cookie":"auto 94009656832384","description":"","expiration":"0.000000","addr":"192.168.19.101:0/2231653745"}]}

复现问题

启动一个rbd的kvm,并且装上win server2008

/usr/libexec/qemu-kvm  -drive format=raw,file=rbd:rbd/windows-server-8-base-clone  -cdrom /home/vm/win2008.iso -m 8192 -vnc :0

这个启动后直接用vnc连接访问即可,然后使用一个循环测试写入工具在虚拟机里面进行循环读写,模拟正常的写入,我使用的是SANergy这个工具,使用循环写模式,可以做成iso,然后上面的-cdrom参数把文件穿透进去

准备一个至少两个物理节点的集群

节点一为mon,节点二的时间同步指向节点一,然后调整一的物理时间往后调整20分钟(也可以往前),这个集群会出现osd闪断的情况

正常情况下,这个时候windows会卡死的,如果没卡死,多操作几遍往后调整时间,目的就是把虚拟机卡死

我的环境通过资源管理器看到没有读写io了,强制停止kvm进程,无法停止就kill -9

我们恢复集群的状态,然后再次检查锁状态

[root@lab101 ceph]# cat /home/vm/checklock.sh
rados -p rbd lock info rbd_object_map.102376b8b4567 rbd_lock
rados -p rbd lock info rbd_header.102376b8b4567 rbd_lock [root@lab101 ceph]# sh /home/vm/checklock.sh
{"name":"rbd_lock","type":"exclusive","tag":"","lockers":[{"name":"client.96943","cookie":"","description":"","expiration":"0.000000","addr":"192.168.19.101:0/2231653745"}]}{"name":"rbd_lock","type":"exclusive","tag":"internal","lockers":[{"name":"client.96943","cookie":"auto 94009656832384","description":"","expiration":"0.000000","addr":"192.168.19.101:0/2231653745"}]}

可以看到居然还在

我们尝试启动虚拟机出现无法启动的情况

我们尝试删除锁

处理objectmap的锁

[root@lab101 ceph]# rados -p rbd lock break rbd_object_map.102376b8b4567 rbd_lock client.96943

处理header的锁

[root@lab101 ceph]# rados -p rbd lock break rbd_header.102376b8b4567 rbd_lock client.96943
ERROR: failed breaking lock: (2) No such file or directory
error 2: (2) No such file or directory

提示没有,比较奇怪,那尝试拿锁

[root@lab101 ceph]# rados -p rbd lock get rbd_header.102376b8b4567 rbd_lock client.96943
ERROR: failed locking: (16) Device or resource busy
error 16: (16) Device or resource busy

可以看到Device or resource busy 这个一般就是资源占用,无法释放的情况

我们用rbd的命令试下

[root@lab101 ceph]# rbd lock ls rbd/windows-server-8-base-clone
There is 1 exclusive lock on this image.
Locker ID Address
client.96943 auto 94009656832384 192.168.19.101:0/2231653745
[root@lab101 ceph]# rbd lock rm rbd/windows-server-8-base-clone "auto 94009656832384" client.96943
[root@lab101 ceph]# rbd lock ls rbd/windows-server-8-base-clone

可以看到这个是可以删除的

再次检查

[root@lab101 ceph]# sh /home/vm/checklock.sh
{"name":"rbd_lock","type":"exclusive","tag":"","lockers":[]}{"name":"rbd_lock","type":"exclusive","tag":"internal","lockers":[]}[root@lab101 ceph]#

可以看到没有锁了

我们再次尝试启动

产生了新的锁文件了

{"name":"rbd_lock","type":"exclusive","tag":"","lockers":[]}{"name":"rbd_lock","type":"exclusive","tag":"internal","lockers":[]}[root@lab101 ceph]#
[root@lab101 ceph]# sh /home/vm/checklock.sh
{"name":"rbd_lock","type":"exclusive","tag":"","lockers":[{"name":"client.97312","cookie":"","description":"","expiration":"0.000000","addr":"192.168.19.101:0/1322200836"}]}{"name":"rbd_lock","type":"exclusive","tag":"internal","lockers":[{"name":"client.97312","cookie":"auto 94532169500416","description":"","expiration":"0.000000","addr":"192.168.19.101:0/1322200836"}]}

从vnc里面可以看到桌面了

上面的是处理的方法之一,另外的一个方法是

rbd feature disable  rbd/windows-server-8-base-clone  exclusive-lock, object-map, fast-diff
rbd feature enable rbd/windows-server-8-base-clone exclusive-lock, object-map, fast-diff

建议是通过方法一进行处理,理论上方法二也没什么问题,其它几个属性如果正好需要用到的话,那么关闭后,开启下就行

总结

出问题总会是有原因的,如果我们提前抓到了问题,那么下次再遇到的时候就会从容的多,所以不要放弃解决问题,能够解决的问题都会成为你的经验

rbd锁引起kvm虚拟机无法启动的故障的更多相关文章

  1. KVM虚拟机无法启动

    一.启动虚拟机报错: [root@KVM ~]# virsh start node-mssql-test01 error: Failed to start domain node-mssql-test ...

  2. kvm虚拟机virt-manager启动报错

    安装kvm,用virt-manager启动时报错如下: Traceback (most recent call last):  File "/usr/share/virt-manager/v ...

  3. kvm虚拟机管理 系统自动化安装

    原创博文安装配置KVM http://www.cnblogs.com/elvi/p/7718574.htmlweb管理kvm http://www.cnblogs.com/elvi/p/7718582 ...

  4. centos创建kvm虚拟机

    1.检查kvm模块是否已经加载 lsmod |grep kvm 上图已经加载 没有加载 2.加载kvm 模块至内核 modprobe kvm modprobe kvm-intel modprobe: ...

  5. KVM虚拟机高级设置——08 管理远程虚拟机

    在搭建KVM环境——07 带GUI的Linux上安装KVM图形界面管理工具介绍了KVM图形化管理工具,这款工具除了可以管理本地KVM虚拟外,还可以管理远程KVM虚拟机. 输入113机器密码 输入yes ...

  6. 烂泥:KVM虚拟机随KVM服务器的启动而启动

    本文由秀依林枫提供友情赞助,首发于烂泥行天下. 要使KVM虚拟机随KVM服务器的启动而启动,我们所需要做的工作很少.只需要把KVM虚拟机的XML配置文件做一个软连接到/etc/libvirt/qemu ...

  7. [qemu][kvm] 在kvm嵌套kvm的虚拟机里启动kvm加速

    常规情况下,如果在kvm的虚拟机里,又想使用kvm的虚拟机,会报如下的错误信息: [root@host0 nlb]# Could not access KVM kernel module: No su ...

  8. 解决kvm虚拟机启动之后,网卡eth0变为eth1问题

    2018-12-19 故障前提 kvm虚拟机迁移到其他服务器上之后,重新启动网卡会出现问题 例如原网卡名称为eth0,迁移重启之后会自动变为eth1 为什么eth0会变成eth1? 很多Linux d ...

  9. 067_查看 KVM 虚拟机中的网卡信息(不需要进入启动或进入虚拟机)

    #!/bin/bash #该脚本使用 guestmount 工具,可以将虚拟机的磁盘系统挂载到真实机文件系统中#Centos7.2 中安装 libguestfs-tools-c 可以获得 guestm ...

随机推荐

  1. 阿里云的nginx的https配置问题

    server { listen 443 ssl; server_name www.xxx域名.com; root html; index index.html index.html; ssl_cert ...

  2. 关于GoldWave为Vegas制作音频交叉淡化特效的教程分享

    在Vegas里对音频交叉淡化的处理,是通过将两段音频交叠.调整交叠部分的音量.选取交叉淡化类型这三步来实现的,许多步骤是在音频轨道拖动音量线来实现的,操作上不够灵敏精细.其实,单就音频的交叉淡化处理, ...

  3. 美食vlog如何剪辑?用什么视频制作软件剪辑比较好?

    是不是发现自己拍摄的美食永远没有美食博主拍出来的好看?那么美食vlog如何剪辑?用什么视频制作软件剪辑比较好呢?下面小编就教大家用视频编辑软件会声会影强大的颜色分级功能就能拯救你的美食vlog. 接下 ...

  4. Java基础教程——封装

    面向对象的三大特征 封装:encapsulation 继承:inheritance 多态:polymorphism 封装 类是一个最基本的封装 封装的好处: 数据安全:保证数据安全 方便调用:提供清晰 ...

  5. 安全的字符串拷贝strcpy_s的实现与理解

    在C标准库中提供了字符串拷贝函数strcpy,而微软则为为它提供了一个更安全的版本strcpy_s,其函数原型为 errno_t __cdecl strcpy_s( char* _Destinatio ...

  6. 在 Spring Boot 中使用 Flyway

    一.Flyway 介绍 Flyway 是一个开源的数据库迁移工具,MySQL, SQL Server, Oracle 等二十多种数据库 在 Flyway 中数据库的所有改变均称为迁移(migratio ...

  7. 雪花算法 Java 版

    雪花算法根据时间戳生成有序的 64 bit 的 Long 类型的唯一 ID 各 bit 含义: 1 bit: 符号位,0 是正数 1 是负数, ID 为正数,所以恒取 0 41 bit: 时间差,我们 ...

  8. pthread 条件变量

    在上一篇博客互斥量中,解决了线程如何互斥访问临界资源的问题. 在开始本文之前,我们先保留一个问题:为什么需要条件变量,如果只有互斥量不能解决什么问题? API init/destroy 条件变量的数据 ...

  9. Moviepy音视频开发:视频转gif动画或jpg图片exe图形化工具开发案例

    ☞ ░ 前往老猿Python博文目录 ░ 一.引言 老猿之所以学习和研究Moviepy的使用,是因为需要一个将视频转成动画的工具,当时在网上到处搜索查找免费使用工具,结果找了很多自称免费的工具,但转完 ...

  10. 使用PyQt进行Python图形界面程序开发文章目录

    ☞ ░ 前往老猿Python博文目录 ░ PyQt入门知识原来是作为老猿Python<Python基础教程目录>后的进阶学习章节存在,最近不少专栏作者提醒老猿整体的博文内容不错,但博文没有 ...