ceph学习之CRUSH

CRUSH的全称是Controlled Replication Under Scalable Hashing，是ceph数据存储的分布式选择算法，也是ceph存储引擎的核心。在之前的博客里介绍过，ceph的客户端在往集群里读写数据时，动态计算数据的存储位置。这样ceph就无需维护一个叫metadata的东西，从而提高性能。

ceph分布式存储有关键的3R: Replication（数据复制）、Recovery（数据恢复）、Rebalancing（数据均衡）。在组件故障时，ceph默认等待300秒，然后将OSD标记为down和out，并且初始化recovery操作。这个等待时间可以在集群配置文件的mon_osd_down_out_interval参数里设置。在recovery过程中，ceph会重新产生受故障影响的数据。

因为CRUSH会复制数据到不同的磁盘，这些数据副本在recovery时就变得有用。在恢复过程中，CRUSH会尽量移动最小数量的数据，并且产生一个新的集群布局，从而使集群从故障中恢复。

当新的主机或磁盘加入到集群时，CRUSH开始rebalancing操作，它将数据从存在的主机、磁盘迁移到新的主机、磁盘。rebalancing时会尽量利用所有磁盘，以提高集群性能。例如，某个ceph集群包含2000个OSD，现在新加入20个OSD，这样仅1%的数据将被迁移。在迁移中所有存在的磁盘会并行工作，使得迁移工作尽快完成。当然，如果ceph集群在重度使用中，推荐做法是新加入的磁盘设置权重0，并且逐步提高权重，使得数据迁移缓慢发生，以免影响性能。所有的分布式存储在扩容时都建议这样操作，比如我之前写的swift容量管理文章。

在实际中可能经常需要调整集群的布局。默认的CRUSH布局很简单，执行ceph osd tree命令，会看到仅有host和OSD这两种bucket类型在root下面。默认的布局对分区容错很不利，没有rack、row、room这些概念。下面我们增加一种bucket类型：rack（机架）。所有的host（主机）都应位于rack下面。

注：如下文字及图片，都来自《learning ceph》这本书。建议读者有时间详读原著。

（1）执行ceph osd tree得到当前的集群布局：

（2）增加rack：

$ ceph osd crush add-bucket rack01 rack

$ ceph osd crush add-bucket rack02 rack

（3）将host移动到rack下面：

$ ceph osd crush move ceph-node1 rack=rack01

$ ceph osd crush move ceph-node2 rack=rack02

$ ceph osd crush move ceph-node3 rack=rack03

（4）将rack移动到默认的root下面：

$ ceph osd crush move rack03 root=default

$ ceph osd crush move rack02 root=default

$ ceph osd crush move rack01 root=default

（5）再次运行ceph osd tree命令，会看到新的布局已产生，所有host都位于特定rack下面。按此操作，就完成了对CRUSH布局的调整。

对一个已知对象，可以根据CRUSH算法，查找它的存储结构。比如data这个pool里有一个文件resolv.conf：

1 2	`$ rados -p data` `ls` `resolv.conf`

显示它的存储结构：

1 2	`$ ceph osd map data resolv.conf` `osdmap e43 pool` `'data'` `(0) object` `'resolv.conf'` `-> pg 0.9f1f5993 (0.13) -> up ([1,2,0], p1) acting ([1,2,0], p1)`

输出结果说明：

osdmap e43: 这是osdmap的epoll版本
pool ‘data’: 这是pool名字
object ‘resolv.conf’: 这是对象名字
pg 0.9f1f5993 (0.13): 这是PG号
up ([1,2,0], p1): 存储该PG的3个OSD都是活跃的，这是一个有序数组，第一个是primary OSD
acting ([1,2,0], p1): 说明该PG存储在哪3个OSD里，同上也是有序数组

ceph osd map命令只是自己计算一遍CRUSH，它并不确认目标pool里是否真有这个对象，所以随便输入什么文件名，它总是返回成功。

关于对象在ceph里的存储，遵循如下示意图：

首先要存储的大数据（比如rbd设备），被打散成一系列小对象，每个对象会计算出它对应的PG号。取决于replication size的不同，每个PG会分布到多个OSD上。PG的全称是placement groups，它是一个逻辑存储单位，存在的目的是为了更好的管理和定位数以亿计的存储对象。

如何根据对象计算出PG号，以及PG号如何分布到具体的OSD上，这个就是CRUSH算法，如下示意图：

首先，根据对象名和pool里配置的PG数量（这些都已知），运用哈希函数计算出PG号。接下来根据PG号、集群状态、存储规则，运行CRUSH算法，找出具体负责存储的首要和次要OSD。最后客户端从这些OSD上对存储对象进行数据读和写。

在安装ceph的文档里，也提到了如何查看、编辑和更新crushmap。crushmap与ceph的存储架构有关，在实际中可能需要经常调整它。如下先把它dump出来，再反编译成明文进行查看。

$ ceph osd getcrushmap -o crushmap.original

got crush map from osdmap epoch 56

$ crushtool -d crushmap.original -o crushmap

然后查看这个文件：

ceph@ceph:~$ cat crushmap

# begin crush map

tunable choose_local_tries 0

tunable choose_local_fallback_tries 0

tunable choose_total_tries 50

tunable chooseleaf_descend_once 1

tunable straw_calc_version 1

# devices

device 0 osd.0

device 1 osd.1

device 2 osd.2

# types

type 0 osd

type 1 host

type 2 chassis

type 3 rack

type 4 row

type 5 pdu

type 6 pod

type 7 room

type 8 datacenter

type 9 region

type 10 root

# buckets

host ceph2 {

id -2 # do not change unnecessarily

# weight 0.240

alg straw

hash 0 # rjenkins1

item osd.0 weight 0.080

item osd.1 weight 0.080

item osd.2 weight 0.080

}

root default {

id -1 # do not change unnecessarily

# weight 0.240

alg straw

hash 0 # rjenkins1

item ceph2 weight 0.240

}

# rules

rule replicated_ruleset {

ruleset 0

type replicated

min_size 1

max_size 10

step take default

step chooseleaf firstn 0 type osd

step emit

}

# end crush map

这个文件包括几节，大概说明下：

crushmap设备：见上述文件#device后面的内容。这里列举ceph的OSD列表。不管新增还是删除OSD，这个列表会自动更新。通常你无需更改此处，ceph会自动维护。
crushmap bucket类型：见上述文件#types后面的内容。定义bucket的类型，包括root、datacenter、room、row、rack、host、osd等。默认的bucket类型对大部分ceph集群来说够用了，不过你也可以增加自己的类型。
crushmap bucket定义：见上述文件#buckets后面的内容。这里定义bucket的层次性架构，也可以定义bucket所使用的算法类型。
crushmap规则：见上述文件#rules后面的内容。它定义pool里存储的数据应该选择哪个相应的bucket。对较大的集群来说，有多个pool，每个pool有它自己的选择规则。

crushmap的bucket是按层次性分布的，见如下示意图：

crushmap应用的实际场景，举个例子，我们可以定义一个pool名字为SSD，它使用SSD磁盘来提高性能。再定义一个pool名字为SATA，它使用SATA磁盘来获取更好的经济性。不过我手头并没有这样的测试环境，如下配置并非针对我的测试环境进行。假设有3个ceph存储node，每个node上都有独立的osd服务。

首先在crushmap文件里增加如下节：

上述增加2个root bucket，注意id不要冲突。item后面是ceph的node列表，我们假设node1运行SSD硬盘，node2、node3运行SATA硬盘。

再增加2条规则：

ruleset 3这个规则里，step take sata表示优先选择sata的bucket
ruleset 4这个规则里，step take ssd表示优先选择ssd的bucket

修改完后，重新编译crushmap并且加载到集群中使之生效。

$ crushtool -c crushmap -o crushmap.new

$ ceph osd setcrushmap -i crushmap.new

set crush map

接下来观察ceph -s是否健康状态OK。如果健康OK，增加2个pool:

$ ceph osd pool create sata 64 64

$ ceph osd pool create ssd 64 64

给上述2个新创建的pool分配crush规则：

$ ceph osd pool set sata crush_ruleset 3

$ ceph osd pool set ssd crush_ruleset 4

查看规则是否生效：

1	`$ ceph osd dump \|egrep` `-i` `"ssd\|sata"`

现在写往sata pool的目标，将优先存储到SATA设备上。写往ssd pool的目标，将优先存储到SSD设备上。可以用rados命令进行测试：

$ rados -p ssd put filename file.ssd

$ rados -p sata put filename file.sata

最后使用ceph osd map命令检查它们的存储位置：

$ ceph osd map ssd file.ssd

$ ceph osd map sata file.sata

本文转自：http://blog.dnsbed.com/archives/1714

ceph学习之CRUSH的更多相关文章

Ceph学习之路（二）之Ceph的工作原理及流程
一.RADOS的对象寻址 Ceph 存储集群从 Ceph 客户端接收数据——不管是来自 Ceph 块设备. Ceph 对象存储. Ceph 文件系统.还是基于 librados 的自定义实现——并存储 ...
ceph学习
网络: ceph必须要有公共网络和集群网络: public network:负责客户端交互以及osd与mon之间的通讯 cluster network:负责osd之间的复制,均衡,回填,数据恢复等操作 ...
9. Ceph 基础篇 - Crush Maps
文章转载自:https://mp.weixin.qq.com/s?__biz=MzI1MDgwNzQ1MQ==&mid=2247485302&idx=1&sn=00a3a204 ...
Ceph学习笔记（2）- CRUSH数据分布算法
前言: 分布式存储系统需要让数据均匀的分布在集群中的物理设备上,同时在新设备加入,旧设备退出之后让数据重新达到平衡状态尤为重要.新设备加入后,数据要从不同的老设备中迁移过来.老设备退出后,数据迁移 ...
Ceph学习之路（一）之ceph初识
一.元数据和元数据管理 (1)元数据在学习Ceph之前,需要了解元数据的概念.元数据又称为中介数据.中继数据,为描述数据的数据.主要描述数据属性的信息,用来支持如指示存储位置.历史数据.资源查找.文 ...
Ceph学习笔记（3）- Monitor
Ceph学习笔记(3)- Monitor 前言: Ceph将cluster map与placement rule合并为一张表称为crush map,作为集群表的一部分.由Monitor对集群表的副 ...
ceph学习之pool
pool是ceph存储数据时的逻辑分区,它起到namespace的作用.其他分布式存储系统,比如Mogilefs.Couchbase.Swift都有pool的概念,只是叫法不同.每个pool包含一定数 ...
Ceph学习之路（三）Ceph luminous版本部署
1.配置ceph.repo并安装批量管理工具ceph-deploy [root@ceph-node1 ~]# vim /etc/yum.repos.d/ceph.repo [ceph] name=Ce ...
ceph学习之PG
PG的计算公式: 整个集群PG的计算公式 Total PGs = ((Total_number_of_OSD * ) / max_replication_count) 每个POOL中PG的计算公式: ...

随机推荐

【JavaScript专题】--- 立即执行函数表达式
一什么是立即执行函数表达式立即执行函数表达式,其实也可以叫初始化函数表达式,英文名:IIFE,immediately-inovked-function expression.立即执行函数表达式就是 ...
centos下安装pip时失败：
[root@wfm ~]# yum -y install pipLoaded plugins: fastestmirror, refresh-packagekit, securityLoading m ...
拉普拉斯分布（Laplace distribution）
拉普拉斯分布的定义与基本性质其分布函数为分布函数图其概率密度函数为密度函数图拉普拉斯分布与正太分布的比较从图中可以直观的发现拉普拉斯分布跟正太分布很相似,但是拉普拉斯分布比正太分布有尖的峰 ...
Django中日志管理
在settings中设置日志的相关信息,然后再逻辑代码区就可以保存相应的信息了 #简单设置: LOGGING = { 'version': 1, 'disable_existing_loggers': ...
Hadoop1.x Shell命令
refer to http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/h ...
[GUI] QT事件与X11的关系
做了一段时间linux下与QT事件相关的工作,经常会遇到X11,总是苦于无法完全理解其与linux以及QT事件之间的关系,所以用两篇文章来简单总结下linux中的图形管理和QT事件与X11的关系. & ...
Ubuntu15.10下***搭建及GUI客户端安装
1.依赖包安装 sudo apt-get install python-pip python-dev build-essential sudo pip install pip sudo apt-get ...
在Treeview中节点的data属性中保存记录类型及其消除的办法
一.保存记录类型在data指针中: procedure TForm1.getheaditems(pp:TfrxBand;hnode:THeadTreeNode;var i:Integer;var j: ...
pathinfo()的用法
pathinfo() 返回一个关联数组包含有 path 的信息. 包括以下的数组元素: [dirname] [basename] [extension] 提示和注释注释:如果不是要求取得所有单元,则 ...
Java JDK环境配置及说明
一.Java程序运行机制 Java语言编写的程序需要经过编译生成与平台无关的字节码(.class文件). 这种字节码必须使用Java解释器(JVM)来解释执行. JVM是可运行Java字节码文件的虚拟 ...

ceph学习之CRUSH

ceph学习之CRUSH的更多相关文章

随机推荐

热门专题