从ceph对象中提取RBD中的指定文件

前言

之前有个想法，是不是有办法找到rbd中的文件与对象的关系，想了很久但是一直觉得文件系统比较复杂，在fs 层的东西对ceph来说是透明的，并且对象大小是4M，而文件很小，可能在fs层进行了合并，应该很难找到对应关系，最近看到小胖有提出这个问题，那么就再次尝试了，现在就是把这个实现方法记录下来

这个提取的作用个人觉得最大的好处就是一个rbd设备，在文件系统层被破坏以后，还能够从rbd提取出文件，我们知道很多情况下设备的文件系统一旦破坏，无法挂载，数据也就无法读取，而如果能从rbd中提取出文件，这就是保证了即使文件系统损坏的情况下，数据至少不丢失

本篇是基于xfs文件系统情况下的提取，其他文件系统有时间再看看，因为目前使用的比较多的就是xfs文件系统

本篇也回答了一个可能会经常被问起的问题，能告诉我虚拟机里面的文件在后台存储在哪里么，看完本篇就知道存储在哪里了

XFS文件系统介绍

[root@lab8106 ~]# mkfs.xfs -f /dev/rbd0p1

warning: device is not properly aligned /dev/rbd0p1

meta-data=/dev/rbd0p1            isize=256    agcount=9, agsize=162816 blks

         =                       sectsz=512   attr=2, projid32bit=1

         =                       crc=0        finobt=0

data     =                       bsize=4096   blocks=1310475, imaxpct=25

         =                       sunit=1024   swidth=1024 blks

naming   =version 2              bsize=4096   ascii-ci=0 ftype=0

log      =internal log           bsize=4096   blocks=2560, version=2

         =                       sectsz=512   sunit=8 blks, lazy-count=1

realtime =none                   extsz=4096   blocks=0, rtextents=0

XFS文件系统采取是AG管理的，每个AG维护自己的inode和数据，所以XFS文件系统是一种很容易扩展的文件系统，本篇里面主要用到的命令是xfs_bmap这个命令

[root@lab8106 ~]# xfs_bmap -lvp /etc/fstab

/etc/fstab:

 EXT: FILE-OFFSET      BLOCK-RANGE        AG AG-OFFSET        TOTAL FLAGS

   0: [0..7]:          26645424..26645431  1 (431024..431031)     8 00000

一个文件最小就是8个block（512b），也就是4k,这个因为上面默认的xfs的格式化就是data bsize=4K,这个值可以自行调整的，本篇尽量用默认常规的参数来讲例子

查看man xfs_bmap这个命令可以看到：

Holes are marked by replacing the startblock..endblock with hole. All the file offsets and disk blocks are in units of 512-byte blocks, no matter what the filesystem's block size is.

意思是这个查询到的里面的计数单位都是512-byte，不管上层设置的block大小是多少，我们知道文件系统底层的sector就是512-byte，所以这个查询到的结果就可以跟当前的文件系统的sector的偏移量联系起来，这里强调一下，这个偏移量的起始位子为当前文件系统所在分区的偏移量，如果是多分区的情况，在计算整个偏移量的时候就要考虑分区的偏移量了，这个会在后面用实例进行讲解的

rbd的对象是不清楚内部分区的偏移量，所以在rbd层进行提取的时候是需要得到的是分区当中的文件相对整个磁盘的一个sector的偏移量

rbd的对象结构

[root@lab8106 ~]# rados -p rbd ls|grep data

rbd_data.25a636b8b4567.00000000000009ff

rbd_data.25a636b8b4567.00000000000001dd

rbd_data.25a636b8b4567.0000000000000000

rbd_data.25a636b8b4567.000000000000009f

rbd_data.25a636b8b4567.0000000000000459

rbd_data.25a636b8b4567.000000000000027e

rbd_data.25a636b8b4567.00000000000004ff

rbd_data.25a636b8b4567.000000000000027c

rbd_data.25a636b8b4567.000000000000027d

rbd_data.25a636b8b4567.0000000000000001

rbd_data.25a636b8b4567.000000000000013e

rbd_data.25a636b8b4567.00000000000003ba

rbd_data.25a636b8b4567.000000000000031b

rbd_data.25a636b8b4567.00000000000004f8

rbd被xfs格式化以后会产生一些对象，这些对象是以16进制名称的方式存储在后台的，也就是rbd大小一定的情况下对象数目是一定的，也就是名称也是一定的

[root@lab8106 ~]# parted -s /dev/rbd0 unit s print

Model: Unknown (unknown)

Disk /dev/rbd0: 20971520s

Sector size (logical/physical): 512B/512B

Partition Table: gpt

Disk Flags: 

Number  Start      End        Size       File system  Name     Flags

 1      1953s      10485759s  10483807s  xfs          primari

 2      10485760s  20963327s  10477568s               primari

上面可以看到rbd0的sector个数为20971520s

20971520s*512byte=10737418240byte=10485760KB=10240MB

sector的大小一定，总rbd大小一定的情况下sector的数目也是一定的，本篇实例的rbd大小

[root@lab8106 ~]# rbd info zp

rbd image 'zp':

	size 10000 MB in 2500 objects

	order 22 (4096 kB objects)

	block_name_prefix: rbd_data.25a776b8b4567

	format: 2

	features: layering

	flags:

	create_timestamp: Sat Jul 22 18:04:12 2017

sector和ceph object的对应关系的查询

这个就像个map一样，需要把这个关系给找到，一个sector的区间对应到object的map，这里我用python写个简单的方法来做查询，也可以自己用其他语言来实现

首先查询到rbd的对象数目

[root@lab8106 ~]# rbd info zp

rbd image 'zp':

	size 10000 MB in 2500 objects

	order 22 (4096 kB objects)

	block_name_prefix: rbd_data.25a776b8b4567

	format: 2

	features: layering

	flags:

	create_timestamp: Sat Jul 22 18:04:12 2017

处理脚本如下:

vim getsecob.py

添加下面内容

#! /bin/python

# *-* conding=UTF-8 *-*

import commands

def main():

    getmap(2500)

def getmap(object):

    sector=int(object)*4096*1024/512

    print "object:"+str(object)

    print "sector:"+str(sector)

    incre=sector/object

    for item in range(int(object)):

        a=int(item*8192)

        b=int((item+1)*8192-1)

        print str([a,b])+"  -->  "+"%016x" %item

if __name__ == '__main__':

    main()

其中getmap后面为对象数目

输出是这个形式的：

[root@lab8106 ~]# python getsecob.py

object:2500

sector:20480000

[0, 8191]  -->  0000000000000000

[8192, 16383]  -->  0000000000000001

[16384, 24575]  -->  0000000000000002

[24576, 32767]  -->  0000000000000003

[32768, 40959]  -->  0000000000000004

[40960, 49151]  -->  0000000000000005

···

对rbd0进行分区，分区后的结果如下

[root@lab8106 ~]# parted -s /dev/rbd0 unit s print

Model: Unknown (unknown)

Disk /dev/rbd0: 20480000s

Sector size (logical/physical): 512B/512B

Partition Table: gpt

Disk Flags: 

Number  Start      End        Size       File system  Name     Flags

 1      1953s      10240000s  10238048s               primari

 2      10248192s  20471807s  10223616s               primari

这个是个测试用的image，大小为10G分成两个5G的分区，现在我们在两个分区里面分别写入两个测试文件，然后经过计算后，从后台的对象中把文件读出

mount /dev/rbd0p1 /mnt1

mount /dev/rbd0p2 /mnt2

cp /etc/fstab /mnt1

cp /etc/hostname /mnt2

首先获取文件在分区上的sector的偏移量

[root@lab8106 ~]# xfs_bmap -lvp /mnt1/fstab

/mnt1/fstab:

 EXT: FILE-OFFSET      BLOCK-RANGE      AG AG-OFFSET        TOTAL FLAGS

   0: [0..7]:          8224..8231        0 (8224..8231)         8 01111

可以得到是(8224..8231)共8个sector

从上面的分区1的start的sector可以知道起始位置是1953，那么相对于磁盘的偏移量就变成了

(8224+1953..8231+1953) = (10177..10184)

这里说下，这个地方拿到偏移量后，直接通过对rbd设备进行dd读取也可以把这个文件读取出来，这个顺带讲下，本文主要是从对象提取：

dd if=/dev/rbd0 of=a bs=512 count=8 skip=10177

bs取512是因为sector的单位就是512b

这样就把刚刚的fstab文件读取出来了，skip就是文件的sector相对磁盘的起始位置，count就是文件所占的block数目

继续我们的对象提取方式，上面的（10177..10184）这个我们根据上面那个脚本输出的对象列表来找到对象

[8192, 16383] --> 0000000000000001

获取名称，这个因为我的是测试环境，就只有一个匹配，多个image的时候要过滤出对用的rbd的对象，用prifix过滤即可

[root@lab8106 ~]# rados -p rbd ls|grep 0000000000000001

rbd_data.25a776b8b4567.0000000000000001

下载对象

[root@lab8106 ~]# rados -p rbd get rbd_data.25a776b8b4567.0000000000000001 rbd_data.25a776b8b4567.0000000000000001

根据偏移量计算对象中的偏移量

（10177..10184）

[8192, 16383]  -->  0000000000000001

得到

10177-8192=1985

dd if=rbd_data.25a776b8b4567.0000000000000001 of=a bs=512 count=8 skip=1985

得到的文件a的内容即为之前文件的内容

准备取第二个分区的文件

[root@lab8106 ~]# xfs_bmap -lvp /mnt2/hostname

/mnt2/hostname:

 EXT: FILE-OFFSET      BLOCK-RANGE      AG AG-OFFSET        TOTAL FLAGS

   0: [0..7]:          8224..8231        0 (8224..8231)         8 01111

8224+10248192..8231+10248192=10256416..10256423

从磁盘方式

[root@lab8106 ~]# dd if=/dev/rbd0 of=a bs=512 count=8 skip=10256416

从对象方式

10256416..10256423 对应

[10256384, 10264575] --> 00000000000004e4

对象偏移量

10256416-10256384=32

rados -p rbd get

[root@lab8106 ~]# rados -p rbd get rbd_data.25a776b8b4567.00000000000004e4 rbd_data.25a776b8b4567.00000000000004e4

获取文件

[root@lab8106 ~]# dd if=rbd_data.25a776b8b4567.00000000000004e4 of=a bs=512 count=8 skip=32

如果文件比较大的情况，可能出现就是文件是跨对象的，那么还是跟上面的提取方法一样，然后进行提取后的文件进行合并即可

总结

在存储系统上面存储的文件必然会对应到底层磁盘的sector，而sector也是会一一对应到后台的对象的，这个在本文当中得到了验证，所以整个逻辑就是，在文件系统层找到文件对应的sector位置，然后再在底层把sector和对象关系找好，就能从找到文件在对象当中的具体的位置，也就能定位并且能提取了，本篇是基于xfs的，其他文件系统只要能定位文件的sector，就可以在底层找到文件，这个以后会补充其他文件系统进来

变更记录

Why	Who	When
创建	武汉-运维-磨渣	2017-07-22