前言

ceph比较老的版本使用的reweight或者osd weight来调整平衡的,本篇介绍的是ceph新的自带的插件balancer的使用,官网有比较详细的操作手册可以查询

使用方法

查询插件的开启情况

[root@node1 ceph]# ceph mgr module ls
{
"enabled_modules": [
"balancer",
"restful",
"status"
],
"disabled_modules": [
"dashboard",
"influx",
"localpool",
"prometheus",
"selftest",
"telemetry",
"zabbix"
]
}

默认balancer就是enable的

查询balancer活动情况

[root@node1 ceph]# ceph  balancer status
{
"last_optimize_duration": "",
"plans": [],
"mode": "none",
"active": false,
"optimize_result": "",
"last_optimize_started": ""
}

可以看到active是false,这里有手动的方法和自动的方法,我一般使用自动的,然后调整完了关闭

首先设置兼容模式

ceph balancer mode crush-compat

开启调整前,我们需要先看下我们的调整的效果,这里可以用

查询osd上的pg数

提供的脚本来进行查询,效果如下

[root@node1 ceph]# sh getpg.sh
dumped all pool : 6 | SUM
------------------------
osd.0 159 | 159
osd.1 136 | 136
osd.2 167 | 167
osd.3 163 | 163
osd.4 143 | 143
------------------------
SUM : 768 |
Osd : 5 |
AVE : 153.60 |
Max : 167 |
Osdid : osd.2 |
per: 8.7% |
------------------------
min : 136 |
osdid : osd.1 |
per: -11.5% |

之所以要这个脚本,是因为自带的提供的是osd上面的pg之和,有的时候我们的存储池混用物理osd的,上面的有的空存储池的pg会影响查看效果,所以需要分存储池去计算统计

开启调整

ceph balancer on

查看情况

[root@node1 ceph]# ceph  balancer status
{
"last_optimize_duration": "0:00:00.989178",
"plans": [],
"mode": "crush-compat",
"active": true,
"optimize_result": "Optimization plan created successfully",
"last_optimize_started": "Wed Jun 17 14:34:53 2020"
}

现在的这个状态查询比以前做的好了,还带上了最后的执行时间,从监控来看,1分钟会触发一次,差不多等个几分钟,基本就调整完了,这个的前提是空的环境,有数据的环境,那就看每一轮的需要迁移的数据量了,所以搭建完集群,一定需要调整平衡

我们检查下我们的环境

[root@node1 ceph]# sh getpg.sh
dumped all pool : 6 | SUM
------------------------
osd.0 153 | 153
osd.1 153 | 153
osd.2 154 | 154
osd.3 154 | 154
osd.4 154 | 154
------------------------
SUM : 768 |
Osd : 5 |
AVE : 153.60 |
Max : 154 |
Osdid : osd.2 |
per: 0.3% |
------------------------
min : 153 |
osdid : osd.1 |
per: -0.4% |

再次查询

[root@node1 ceph]# ceph  balancer status
{
"last_optimize_duration": "0:00:00.114673",
"plans": [],
"mode": "crush-compat",
"active": true,
"optimize_result": "Unable to find further optimization, change balancer mode and retry might help",
"last_optimize_started": "Wed Jun 17 14:40:57 2020"
}

效果相当惊人,结果提示这个无法更好了,这个调整看自己接受的程度了,之前遇到过一次主机不对称的crush,实际上会出现永远调不平的情况,所以自己判断下即可,目前的情况非常的均衡了,这个时候我个人的操作是关闭掉这个调整,以免后面有变化,有数据的时候自动触发了调整引起不必要的麻烦

关闭自动平衡

[root@node1 ceph]# ceph balancer off
[root@node1 ceph]# ceph balancer status
{
"last_optimize_duration": "0:00:00.114152",
"plans": [],
"mode": "crush-compat",
"active": false,
"optimize_result": "Unable to find further optimization, change balancer mode and retry might help",
"last_optimize_started": "Wed Jun 17 14:44:58 2020"
}

手动调整方法

ceph balancer optimize tune
ceph balancer execute tune

总结

现在的平衡跟之前通过weight的调整,最终的效果比之前会好很多,之前H版本J版本一个集群能调整到5%,基本就是调整极限了

变更记录

Why Who When
创建 武汉-运维-磨渣 2020-06-17

ceph的pg平衡插件balancer的更多相关文章

  1. 调整ceph的pg数(pg_num, pgp_num)

    https://www.jianshu.com/p/ae96ee24ef6c 调整ceph的pg数 PG全称是placement groups,它是ceph的逻辑存储单元.在数据存储到cesh时,先打 ...

  2. Ceph之PG数调整

    1. PG介绍 PG, Placement Groups.CRUSH先将数据分解成一组对象,然后根据对象名称.复制级别和系统中的PG数等信息执行散列操作,再将结果生成PG ID.可以将PG看做一个逻辑 ...

  3. ceph 存储池PG查看和PG存放OSD位置

    1. 查看PG (ceph-mon)[root@controller /]# ceph pg stat 512 pgs: 512 active+clean; 0 bytes data, 1936 MB ...

  4. Ceph:pg peering过程分析

    转自:https://www.ustack.com/blog/ceph%ef%bc%8dpg-peering/ Peering:互为副本的三个(此处为设置的副本个数,通常设置为3)pg的元数据达到一致 ...

  5. Ceph中PG和PGP的区别

    http://www.zphj1987.com/2016/10/19/Ceph%E4%B8%ADPG%E5%92%8CPGP%E7%9A%84%E5%8C%BA%E5%88%AB/ 一.前言 首先来一 ...

  6. 分布式存储Ceph之PG状态详解

    https://www.jianshu.com/p/36c2d5682d87 1. PG介绍 继上次分享的<Ceph介绍及原理架构分享>,这次主要来分享Ceph中的PG各种状态详解,PG是 ...

  7. ceph的pg的分布的快速查看

    前言 本篇的内容实际上是另外一篇文章的字篇章,在另外一篇文章当中,将会对crush的分布的调整的做一次总结,用比较简单的方式来展示各种crush的区别 在做这个工作过程中,为了更好的能展示出效果,就有 ...

  8. ceph PG数量调整/PG的状态说明

    优化: PG Number PG和PGP数量一定要根据OSD的数量进行调整,计算公式如下,但是最后算出的结果一定要接近或者等于一个2的指数.调整PGP不会引起PG内的对象的分裂,但是会引起PG的分布的 ...

  9. 分布式存储系统之Ceph集群存储池、PG 与 CRUSH

    前文我们了解了ceph集群状态获取常用命令以及通过ceph daemon.ceph tell动态配置ceph组件.ceph.conf配置文件相关格式的说明等,回顾请参考https://www.cnbl ...

随机推荐

  1. Windows下使用GitStack搭建Git服务器

    Win10下使用GitStack搭建Git服务器 Git是目前世界上最先进的分布式版本控制系统(没有之一). ​ 许多人习惯用复制整个项目目录的方式来保存不同的版本,或许还会改名加上备份时间以示区别. ...

  2. git tag的应用

    一,git的tag是什么? tag就是给commit起一个容易记忆容易理解的名字 说明:架构森林是一个专注架构的博客,地址:https://www.cnblogs.com/architectfores ...

  3. CentOS 6编译安装RabbitMQ

    编译安装Python 下载python源文件 [root@localhost src]# tar -xzvf python-2.7.11.tar.gz [root@localhost src]# cd ...

  4. 【应用服务 App Service】快速获取DUMP文件(App Service for Windows(.NET/.NET Core))

    问题情形 当应用在Azure 应用服务App Service中运行时,有时候出现CPU,Memory很高,但是没有明显的5XX错误和异常日志,有时就是有异常但是也不能明确的指出具体的代码错误.当面临这 ...

  5. 【Azure Redis 缓存 Azure Cache For Redis】当使用Jedis客户端连接Redis时候,遇见JedisConnectionException: Could not get a resource from the pool / Redis connection lost

    问题情形 当在执行Redis一直指令时,有可能会遇见如下几种错误: 1) redis.clients.jedis.exceptions.JedisConnectionException: Could ...

  6. vue知识点13

    知识点归纳整理如下: 组件 component     1.页面中的一部分,可以复用, 本质上是一个拥有预定义选项的一个 Vue 实例         2.使用         1)定义        ...

  7. 第二个 SignalR,可以私聊的聊天室

    一.简介 上一次,我们写了个简单的聊天室,接下来,我们来整一个可以私聊的聊天室. SignalR 官方 API 文档 需求简单分析: 1.私聊功能,那么要记录用户名或用户ID,用于发送消息. 2.怎么 ...

  8. 使用 Azure静态web应用+Github全自动部署VUE站点

    什么事Azure静态web应用 Azure 静态 Web 应用是一种服务,可从 GitHub 存储库自动构建完整的堆栈 Web 应用,并将其部署到 Azure,目前它还是预览版. Azure 静态 W ...

  9. Qlik Sense插件及QRS接口补充

    date: 2019-10-18 09:10:00 updated: 2019-10-18 15:18:00 Qlik Sense插件及QRS接口补充 1.插件 1.1 获取数据方式 理论上 Engi ...

  10. Guava - 拯救垃圾代码,写出优雅高效,效率提升N倍

    最近在看一个同学代码的时候,发现代码中大量使用了 Google 开源的 Guava 核心库中的内容,让代码简单清晰了不少,故学习分享出 Guava 中我认为最实用的功能. Guava 项目是 Goog ...