Ceph中的容量计算与管理

转自：https://www.ustack.com/blog/ceph%ef%bc%8drongliang/

在部署完Ceph集群之后，一般地我们可以通过Ceph df这个命令来查看集群的容量状态，但是Ceph是如何计算和管理的呢？相信大家都比较好奇。因为用过 ceph df这个命令的人都会有这个疑问，它的输出到底是怎么计算的呢？为什么所有pool的可用空间有时候等于GLOBAL中的可用空间，有时候不等呢？带着这些疑问我们可以通过分析ceph df的实现，来看看Ceph是如何计算容量和管理容量的。

一般情况下ceph df的输出如下所示：

ceph-df

[root@study-1 ~]# ceph df

GLOBAL:

SIZE AVAIL RAW USED %RAW USED

196G 99350M 91706M 45.55

POOLS:

NAME ID USED %USED MAX AVAIL OBJECTS

rbd 1 20480k 0.02 49675M 11

x 2 522 0 49675M 11

从上面的输出可以看到，ceph对容量的计算其实是分为两个维度的。一个是GLOBAL维度，一个是POOLS的维度。

GLOBAL 维度中有SIZE，AVAIL，RAW USED，%RAW USED。

POOLS 维度中有 USED，%USED，MAX AVAIL，OBJECTS。

我们这里先把注意力放在RAW USED，和AVAIL上。这个两个分析清楚之后，其它的也就迎刃而解了。

这里我们粗略算一下GLOBAL中的RAW USED 为91706M，明显大于下面pool 中USED 20480k*3 + 522bytes*3啊。而且各个pool的MAX AVAIL 相加并不等于GLOBAL中的AVAIL。我们需要深入代码分析一下为什么。

分析

Ceph 命令基本上都是首先到Montior这里，如何Monitor能处理请求，就直接处理，不能就转发。

我们看看Monitor是如何处理ceph df这个命令的。Monitor处理命令主要是在Monitor::hanlde_command函数里。

handle_command

else if (prefix == "df") {

bool verbose = (detail == "detail");

if (f)

f->open_object_section("stats");

pgmon()->dump_fs_stats(ds, f.get(), verbose);

if (!f)

ds << '\n';

pgmon()->dump_pool_stats(ds, f.get(), verbose);

if (f) {

f->close_section();

f->flush(ds);

ds << '\n';

}

从上面的代码可以知道，主要是两个函数完成了df命令的输出。一个是pgmon()->dump_fs_stats，另一个是pgmon()->dump_pool_stats。

dump_fs_stats 对应GLOBAL这个维度。dump_pool_stats对应POOLS这个维度。

GLOBAL维度

从PGMonitor::dump_fs_stats开始：

dump_fs_stats

void PGMonitor::dump_fs_stats(stringstream &ss, Formatter *f, bool verbose) const

{

if (f) {

f->open_object_section("stats");

f->dump_int("total_bytes", pg_map.osd_sum.kb * 1024ull);

f->dump_int("total_used_bytes", pg_map.osd_sum.kb_used * 1024ull);

f->dump_int("total_avail_bytes", pg_map.osd_sum.kb_avail * 1024ull);

if (verbose) {

f->dump_int("total_objects", pg_map.pg_sum.stats.sum.num_objects);

}

f->close_section();

}

可以看到相关字段数值的输出主要依赖pg_map.osd_sum的值，而osd_sum是各个osd_stat的总和。所以我们需要知道单个osd的osd_stat_t是如何计算的。

stat_pg_update

void OSDService::update_osd_stat(vector<int>& hb_peers)

{

Mutex::Locker lock(stat_lock);

osd_stat.hb_in.swap(hb_peers);

osd_stat.hb_out.clear();

osd->op_tracker.get_age_ms_histogram(&osd_stat.op_queue_age_hist);

// fill in osd stats too

struct statfs stbuf;

int r = osd->store->statfs(&stbuf);

if (r < 0) {

derr << "statfs() failed: " << cpp_strerror(r) << dendl;

return;

}

uint64_t bytes = stbuf.f_blocks * stbuf.f_bsize;

uint64_t used = (stbuf.f_blocks - stbuf.f_bfree) * stbuf.f_bsize;

uint64_t avail = stbuf.f_bavail * stbuf.f_bsize;

osd_stat.kb = bytes >> 10;

osd_stat.kb_used = used >> 10;

osd_stat.kb_avail = avail >> 10;

osd->logger->set(l_osd_stat_bytes, bytes);

osd->logger->set(l_osd_stat_bytes_used, used);

osd->logger->set(l_osd_stat_bytes_avail, avail);

check_nearfull_warning(osd_stat);

dout(20) << "update_osd_stat " << osd_stat << dendl;

}

从上面我们可以看到update_osd_stat 主要是通过osd->store->statfs(&stbuf)，来更新osd_stat的。因为这里使用的是Filestore，所以需要进入FileStore看其是如何statfs的。

FIleStore::statfs

int FileStore::statfs(struct statfs *buf)

{

if (::statfs(basedir.c_str(), buf) < 0) {

int r = -errno;

assert(!m_filestore_fail_eio || r != -EIO);

assert(r != -ENOENT);

return r;

}

return 0;

}

可以看到上面FileStore主要是通过::statfs()这个系统调用来获取信息的。这里的basedir.c_str()就是data目录。所以osd_sum计算的就是将所有osd 数据目录的磁盘使用量加起来。回到上面的输出，因为我使用的是一个磁盘上的目录，所以在statfs的时候，会把该磁盘上的其它目录也算到Raw Used中。回到上面的输出，因为使用两个OSD，且每个OSD都在同一个磁盘下，所以GLOBAL是这么算的

同上，就知道Ceph如何算Raw Used，AVAIL的。

POOLS维度

从PGMonitor::dump_pool_stats()来看，该函数以pool为粒度进行循环，通过 pg_map.pg_pool_sum来获取pool的信息。其中USED，%USED，OBJECTS是根据pg_pool_sum的信息算出来的。而MAX AVAIL 是单独算出来的。

这里有一张图，可以帮助同学们梳理整个的流程。中间仅取了一些关键节点。有一些省略，如想知道全貌，可以在PGMonitor::dump_pool_stats查阅。

通过分析代码我们知道，pool的使用空间（USED）是通过osd来更新的，因为有update（write，truncate，delete等）操作的的时候，会更新ctx->delta_stats，具体请见ReplicatedPG::do_osd_ops。举例的话，可以从处理WRITE的op为入手点，当处理CEPH_OSD_OP_WRITE类型的op的时候，会调用write_update_size_and_usage()。里面会更新ctx->delta_stats。当IO处理完，也就是applied和commited之后，会publish_stats_to_osd()。

这里会将变化的pg的stat_queue_item入队到pg_stat_queue中。然后设置osd_stat_updated为True。入队之后，由tick_timer在C_Tick_WithoutOSDLock这个ctx中通过send_pg_stats()将PG的状态发送给Monitor。这样Monitor就可以知道pg的的变化了。

可用空间，即MAX AVAIL的值，计算稍微有点复杂。Ceph是先计算Available的值，然后根据副本策略再计算MAX AVAIL的值。Available的值是在get_rule_avail()中计算的。在该函数中通过get_rule_weight_osd_map()算出来一个有weight的osd列表。

注意这里的weight一般是小于1的，因为它除以了sum。而sum就是pool中所有osd weight的总和。在拿到weight列表后，就会根据pg_map.osd_stat中kb_avail的值进行除以weight，选出其中最小的，作为Available的值。

这么描述有些抽象了，具体举一个例子。比如这里我们的pool中有三个osd，假设kb_avail都是400G

即，

{osd_0: 0.9, osd_1, 0.8, osd_2: 0.7}。计算出来的weight值是{osd_0: 0.9/2.4，osd_1: 0.8/2.4，osd_2: 0.7/2.4}

这样后面用osd的available 空间除以这里的weight值，这里的Available的值就是400G*0.7/2.4。这里附上一个公式，可能更直观一些。

然后根据你的POOL的副本策略不同，POOL的AVAL计算方式也不同。如果是REP模式，就是直接除以副本数。如果是EC模式，则POOL的AVAL是Available * k / (m + k)。

所以一般情况下，各个POOL的MAX AVAIL之和与GLOBAL的AVAIL是不相等的，但是可以很接近（相差在G级别可以忽略为接近）。

总结

分析到这里，我们知道CEPH中容量的计算是分维度的，如果是GLOBAL维度的话，因为使用的是osd的所在磁盘的statfs来计算所以还是比较准确的。而另一个维度POOLS

由于需要考虑到POOL的副本策略，CRUSH RULE，OSD WEIGHT，计算起来还是比较复杂的。容量的管理主要是在OSD端，且OSD会把信息传递给MON，让MON来维护。

计算osd weight值比较复杂，这里附上算weight的函数，添加了一些注释，有助于感兴趣的同学一起分析。

int CrushWrapper::get_rule_weight_osd_map(unsigned ruleno, map<int,float> *pmap)

{

if (ruleno >= crush->max_rules)

return -ENOENT;

if (crush->rules[ruleno] == NULL)

return -ENOENT;

crush_rule *rule = crush->rules[ruleno];

// build a weight map for each TAKE in the rule, and then merge them

for (unsigned i=0; i<rule->len; ++i) {

map<int,float> m;

float sum = 0;

if (rule->steps[i].op == CRUSH_RULE_TAKE) {//如果是take的话,则进入

int n = rule->steps[i].arg1;

if (n >= 0) { // n如果大于等于0的话是osd，否则是buckets

m[n] = 1.0; // 如果是osd的话，因为这里是直接take osd，所有有没有权重已经不重要了

sum = 1.0;

} else { // 不是osd，是buckets的话

list<int> q;

q.push_back(n); // buckets 的id 入队

//breadth first iterate the OSD tree

while (!q.empty()) {

int bno = q.front(); // 取出buckets的id

q.pop_front(); // 出队

crush_bucket *b = crush->buckets[-1-bno]; // 根据序号拿到buckets

assert(b); // 这个buckets必须是存在的

for (unsigned j=0; j<b->size; ++j) { // 从buckets的items数组中拿相应的bucket

int item_id = b->items[j];

if (item_id >= 0) { //it's an OSD

float w = crush_get_bucket_item_weight(b, j); // 拿出该osd的weight

m[item_id] = w; // m 入队

sum += w; // weight加和

} else { //not an OSD, expand the child later

q.push_back(item_id); // 如果不是osd，则添加其item_id,所以这里是一个树的深度遍历

}

for (map<int,float>::iterator p = m.begin(); p != m.end(); ++p) {

map<int,float>::iterator q = pmap->find(p->first);

// 因为我们这里传入的pmap是没有数据的

// 所以第一次必中，

if (q == pmap->end()) {

(*pmap)[p->first] = p->second / sum;

} else {

// 这里还需要考虑osd在不同的buckets里的情况

q->second += p->second / sum;

}

return 0;

}

关于作者：

李田清：UnitedStack有云存储工程师，3年OpenStack开发和架构经验，熟悉分布式存储系统。主要关注分布式存储，与云计算领域。致力于将Ceph打造为真正高效，稳定的，能满足客户真实需求的分布式存储。

Ceph中的容量计算与管理的更多相关文章

CEPH-5：ceph集群基本概念与管理
ceph集群基本概念与管理 ceph集群基本概念 ceph集群整体结构图名称作用 osd 全称Object Storage Device,主要功能是存储数据.复制数据.平衡数据.恢复数据等.每个O ...
【Hadoop学习】HDFS中的集中化缓存管理
Hadoop版本:2.6.0 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4146398.html 概述 ...
管道设计CAD系统中重量重心计算
管道设计CAD系统中重量重心计算 eryar@163.com Abstract. 管道设计CAD系统中都有涉及到重量重心计算的功能,这个功能得到的重心数据主要用于托盘式造船时方便根据重心设置吊装配件. ...
[svc][op]磁盘(结构)容量计算
磁盘结构和容量计算 fdisk -l显示信息详解 [root@www.linuxidc.com ~]# fdisk -l Disk /dev/sda: bytes heads, sectors/tra ...
Ceph中的序列化
转自:https://www.ustack.com/blog/cephxuliehua/ 作为主要和磁盘.网络打交道的分布式存储系统,序列化是最基础的功能之一,今天我们来看一下Ceph中序列化的设计与 ...
Ceph中Bufferlist的设计与使用
转自:https://www.ustack.com/blog/bufferlist/ 如果非要在整个Ceph中,找出一个类最重要,我觉得非Bufferlist莫属了,原因很简单,因为Bufferlis ...
java中hashmap容量的初始化
HashMap使用HashMap(int initialCapacity)对集合进行初始化. 在默认的情况下,HashMap的容量是16.但是如果用户通过构造函数指定了一个数字作为容量,那么Hash会 ...
【CDN+】 Spark入门---Handoop 中的MapReduce计算模型
前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://s ...
Ceph中的Copyset概念和使用方法
前言 copyset运用好能带来什么好处降低故障情况下的数据丢失概率(增加可用性) 降低资源占用,从而降低负载 copyset的概念首先我们要理解copyset的概念,用通俗的话说就是,包含一个数 ...

随机推荐

ZOJ 2770 Burn the Linked Camp 差分约束
链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do? problemCode=2770 Burn the Linked Camp Time Limi ...
注册tomcat为windows服务（转载）
第一部分应用场景需要服务器上Tomcat不显示启动窗口需要服务器上Tomcat开机自启动 ... 第二部分配置过程一.修改配置文件 1 {Tomcat_HOME}/bin/service.b ...
rem根元素的定义规则
<script> !function(a) { function b() { var b = g.getBoundingClientRect().width; var winpix=1; ...
testng xml配置文件
简单介绍运行TestNG测试脚本有两种方式:一种是直接通过IDE运行(例如使用eclipse中的“Run TestNG tests”),另一种是从命令行运行(通过使用xml配置文件).当我们想执行某 ...
【转】Python爬虫(7)_scrapy-redis
scrapy-redis使用以及剖析 scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调 ...
CNN学习笔记：目标函数
CNN学习笔记:目标函数分类任务中的目标函数目标函数,亦称损失函数或代价函数,是整个网络模型的指挥棒,通过样本的预测结果与真实标记产生的误差来反向传播指导网络参数学习和表示学习. 假设某分类任务共 ...
JAVA中字符串问题
JAVA中对象创建通过new关键字来创建对象通过newInstance()方法来创建对象使用反序列化机制中IO流中恢复Java对象通过clone()方法复制一个对象直接量方式,String ...
js刷新页面 location.reload()
在javascript编程中,多使用location.reload实现页面刷新. 例子: 代码示例: window.location.href=window.location.href; window ...
linux 搭建 nexus maven私服仓储
一.下载 1.创建下载软件包目录 mkdir /home/install 2.在/home/install下载nexus包,或者将下载好的nexus压缩包上传至/home/install wget ...
[转]从程序员到CTO的Java技术路线图
原文链接:http://zz563143188.iteye.com/blog/1877266 在技术方面无论我们怎么学习,总感觉需要提升自已不知道自己处于什么水平了.但如果有清晰的指示图供参考还是非常 ...

Ceph中的容量计算与管理

分析

总结

Ceph中的容量计算与管理的更多相关文章

随机推荐

热门专题