前言

问题的触发是在进行一个目录的查询的时候,osd就会挂掉,开始以为是osd操作超时了,后来发现每次访问这个对象都有问题

log [WRN] : slow request 60.793196 seconds old, received at osd_op(mds.0.188:728345234100006c6ddc.00000000 [o map-get-header 0-0,omap-get-vals 0~16,getxattr parent] snapc 0=[] ack+read+known_if_redirected+full_force e218901) currently started
heartbeat_map is_healthy ··· osd_op_tp thread ··· had timed out after 60

这个对象是元数据的一个空对象,保留数据在扩展属性当中

然后做了一个操作判断是对象损坏了:

直接列取omapkeys

rados -p metadata listomapvals 100006c6ddc.00000000

发现会卡住,然后关闭这个osd再次做操作,就可以了,启动后还是不行,这里可以判断是主本的对象已经有问题了,本篇将讲述多种方法来解决这个问题

处理办法

本章将会根据操作粒度的不同来讲述三种方法的恢复,根据自己的实际情况,和风险的判断来选择自己的操作

方法一:通过repair修复

首先能确定是主本损坏了,那么先把主本的对象进行一个备份,然后移除

 [root@lab71 2.0_head]# systemctl stop ceph-osd@0
[root@lab71 2.0_head]# cp -ra 100.00000000__head_C5265AB3__2 ../../

通过ceph-object-tool进行移除的时候有bug,无法移除metadata的对象,已经提了一个bug

[root@lab71 2.0_head]# mv 100.00000000__head_C5265AB3__2 ../

注意一下在老版本的时候,对对象进行删除以后,可能元数据里面记录了对象信息,而对象又不在的时候可能会引起osd无法启动,这个在10.2.10是没有这个问题

重启osd

[root@lab71 2.0_head]# systemctl restart ceph-osd@0

对pg做scrub

[root@lab71 2.0_head]# ceph pg scrub 2.0
instructing pg 2.0 on osd.0 to scrub

这种方法就是需要做scrub的操作,如果对象特别多,并且是线上环境,可能不太好去做scrub的操作

检查状态

[root@lab71 2.0_head]# ceph -s
cluster 03580f14-9906-4257-9182-65c886e7f5a7
health HEALTH_ERR
1 pgs inconsistent
1 scrub errors
too few PGs per OSD (3 < min 30)
monmap e1: 1 mons at {lab71=20.20.20.71:6789/0}
election epoch 4, quorum 0 lab71
fsmap e30: 1/1/1 up {0=lab71=up:active}
osdmap e101: 2 osds: 2 up, 2 in
flags sortbitwise,require_jewel_osds
pgmap v377: 3 pgs, 3 pools, 100814 bytes data, 41 objects
70196 kB used, 189 GB / 189 GB avail
2 active+clean
1 active+clean+inconsistent

发起修复请求

[root@lab71 2.0_head]# ceph pg repair 2.0
instructing pg 2.0 on osd.0 to repair

修复完成后检查集群状态和对象,到这里可以恢复正常了

方法二:通过rsync拷贝数据方式恢复

跟上面一样这里首先能确定是主本损坏了,那么先把主本的对象进行一个备份,然后移除

 [root@lab71 2.0_head]# systemctl stop ceph-osd@0
[root@lab71 2.0_head]# cp -ra 100.00000000__head_C5265AB3__2 ../../

移除对象

[root@lab71 2.0_head]# mv 100.00000000__head_C5265AB3__2 ../

在副本的机器上执行rsync命令,这里我们直接从副本拷贝对象过来,注意下不能直接使用scp会掉扩展属性

[root@lab72 2.0_head]# rsync  -avXH  /var/lib/ceph/osd/ceph-1/current/2.0_head/100.00000000__head_C5265AB3__2 20.20.20.71:/var/lib/ceph/osd/ceph-0/current/2.0_head/100.00000000__head_C5265AB3__2

在主本机器检查扩展属性

[root@lab71 2.0_head]# getfattr 100.00000000__head_C5265AB3__2
# file: 100.00000000__head_C5265AB3__2
user.ceph._
user.ceph._@1
user.ceph.snapset
user.cephos.spill_out

重启osd

[root@lab71 2.0_head]# systemctl restart ceph-osd@0

检查对象的扩展属性

[root@lab71 2.0_head]# rados -p metadata listomapvals 100.00000000

方法三:通过删除PG的方式恢复

这个方式是删除PG,然后重新启动的方式

这种方式操作比较危险,所以提前备份好pg的数据,最好主备pg都备份下,万一出了问题或者数据不对,可以根据需要再导入

备份PG

ceph-objectstore-tool --pgid 2.0 --op export --data-path /var/lib/ceph/osd/ceph-0/ --journal-path   /var/lib/ceph/osd/ceph-0/journal --file /root/2.0

删除PG的操作

[root@lab71 current]# ceph-objectstore-tool --pgid 2.0  --op remove --data-path /var/lib/ceph/osd/ceph-0/ --journal-path /var/lib/ceph/osd/ceph-0/journal
SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 c0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0a 00 00 00 00 20 00 00 c0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
marking collection for removal
setting '_remove' omap key
finish_remove_pgs 2.0_head removing 2.0
Remove successful

重启osd

[root@lab71 current]# systemctl restart ceph-osd@0

等待回复即可

本方法里面还可以衍生一种就是,通过导出的副本的PG数据,在主本删除了相应的PG以后,进行导入的方法,这样就不会产生迁移

[root@lab71 current]#  ceph-objectstore-tool --pgid 2.0  --op import --data-path /var/lib/ceph/osd/ceph-0/ --journal-path /var/lib/ceph/osd/ceph-0/journal --file /root/2.0

总结

上面用三种方法来实现了副本向主本同步的操作,判断主本是否有问题的方法就是主动的把主本所在的OSD停掉,然后检查请求是否可达,在确定主本已经坏掉的情况下,就可以做将副本同步到主本的操作,可以根据PG的对象的多少来选择需要做哪种操作

变更记录

Why Who When
创建 武汉-运维-磨渣 2018-01-02

Ceph对象主本损坏的修复方法的更多相关文章

  1. win7注册表损坏的修复方法

    win7注册表损坏的修复方法 发布时间:2013-07-19 09:31发布者:系统城-小薇浏览数:3129 注册表是window系统中的一个非常重要的数据库,用于存储电脑系统和应用程序的设置信息,我 ...

  2. Linux服务器断电导致挂载及xfs文件损坏的修复方法

    系统文件损坏后进入紧急修复模式,无法进行维护工作 welcome to emergency mode!after logging in ,type "journalctl -xb" ...

  3. MS Sql Server 数据库或表修复(Log日志文件损坏的修复方法)

    ----------------- [1] use master go sp_configure reconfigure with override go ----------------- [2] ...

  4. sqlserver数据库出现可疑错误修复方法

    一.主数据库出现可疑修复方法: 第一种方法: 当数据库发生这种操作故障时,可以按如下操作步骤可处理此要领,打开数据库里的Sql查询编辑器窗口,运行以下的命令: ?修改数据库为紧急模式 ALTER DA ...

  5. 旧文备份:硬盘MBR引导记录损坏的一种修复方法

    硬盘MBR信息损坏原因:硬盘上安装了windows XP和linux双系统,在windows下安装一套软件,破解的时候修改了硬盘的序列号,结果导致引导系统的grub无法完成linux的引导,只能进到w ...

  6. MYSQL数据表损坏的原因分析和修复方法小结

    MYSQL数据表损坏的原因分析和修复方法小结 1.表损坏的原因分析 以下原因是导致mysql 表毁坏的常见原因: 1. 服务器突然断电导致数据文件损坏. 2. 强制关机,没有先关闭mysql 服务. ...

  7. 理解 OpenStack + Ceph (7): Ceph 的基本操作和常见故障排除方法

    本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...

  8. Linux 文件系统错误的修复方法 ddrescue替代dd的恢复软件 备用超级块

    Linux 文件系统错误的修复方法  ddrescue替代dd的恢复软件  备用超级块 最近处理的一件 linux 服务器断电导致文件系统启动后文件系统不可读写,数据不可用的案例,现总结下 Linux ...

  9. Ceph对象存储网关中的索引工作原理<转>

    Ceph 对象存储网关允许你通过 Swift 及 S3 API 访问 Ceph .它将这些 API 请求转化为 librados 请求.Librados 是一个非常出色的对象存储(库)但是它无法高效的 ...

随机推荐

  1. python面试题-django相关

    1.中间件 中间件一般做认证或批量请求处理,django中的中间件,其实是一个类,在请求和结束后,django会根据自己的规则在合适的时机执行中间件中相应的方法, 如请求过来 执行process_re ...

  2. docker-compose编写示例

    docker-compose.yml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ...

  3. Dijkstra算法 python实现

    1.Dijkstra算法的基本实现 \(O(n^2)\) 简介: Dijkstra算法是从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题.迪杰斯特拉算法主要特点是从起始点开始,采用贪 ...

  4. vue渐进式开发的理解和指令

    1.vue渐进式开发 vue是一个渐进式的框架,轻量,易于上手,为啥是渐进式那,我当时也很蒙,比如的官网是jquery写的,就可以通过script标签引入事先准备好的vue.min.js的压缩源代码或 ...

  5. Linux入门到放弃之二《目录处理常用命令的使用方法》

    一,目录操作命令 1.用pwd命令查看当前所在的目录: 2.用ls命令列出此目录下的文件和目录: 3.列出此目录下包括隐藏文件在内的所有文件和目录并且长格式显示: (  -l表示长格式,-a表示隐藏文 ...

  6. frida框架hook获取方法输出参数(常用于简单的so输出参数获取,快速开发)

    一.模板 function douyinencode(data) { var result = {}; Java.perform(function () { try { var Test = Java ...

  7. Ngnix01

    Nginx(一)------简介与安装   目录 1.Nginx 的简介 2.Nginx 的常用功能 3.Nginx 安装 ①.下载地址 ②.Windows 版本安装 ③.Linux 版本安装 说到 ...

  8. Vue(学习第三部 自动化工具 [vue-cli])

    目录 Vue自动化工具(Vue-cli) 安装nide.js npm 安装Vue-sli 使用Vue-处理初始化创建起那段项目 vue项目执行流程图 单文件组件的使用 template 编写HTML代 ...

  9. Qlik Sense插件及QRS接口补充

    date: 2019-10-18 09:10:00 updated: 2019-10-18 15:18:00 Qlik Sense插件及QRS接口补充 1.插件 1.1 获取数据方式 理论上 Engi ...

  10. JUC---01阻塞队列(BlockingQueue)

    一.什么是阻塞队列 阻塞队列是一个队列,在数据结构中起的作用如上图:当队列是空的,从队列中获取元素的操作将会被阻塞:当队列是满的,从队列中添加元素的操作将会被阻塞 1.为什么需要BlockingQue ...