Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)

定位问题

[root@lab8106 ~]# ceph -s

    cluster fa7ec1a1-662a-4ba3-b478-7cb570482b62

     health HEALTH_WARN

            pool rbd has many more objects per pg than average (too few pgs?)

     monmap e1: 1 mons at {lab8106=192.168.8.106:6789/0}

            election epoch 30, quorum 0 lab8106

     osdmap e157: 2 osds: 2 up, 2 in

            flags sortbitwise

      pgmap v1023: 417 pgs, 13 pools, 18519 MB data, 15920 objects

            18668 MB used, 538 GB / 556 GB avail

                 417 active+clean

集群出现了这个警告，pool rbd has many more objects per pg than average (too few pgs?) 这个警告在hammer版本里面的提示是 pool rbd has too few pgs

这个地方查看集群详细信息：

[root@lab8106 ~]# ceph health detail

HEALTH_WARN pool rbd has many more objects per pg than average (too few pgs?); mon.lab8106 low disk space

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

看下集群的pool的对象状态

[root@lab8106 ~]# ceph df

GLOBAL:

    SIZE     AVAIL     RAW USED     %RAW USED

    556G      538G       18668M          3.28

POOLS:

    NAME       ID     USED       %USED     MAX AVAIL     OBJECTS

    rbd        6      16071M      2.82          536G       15296

    pool1      7        204M      0.04          536G          52

    pool2      8        184M      0.03          536G          47

    pool3      9        188M      0.03          536G          48

    pool4      10       192M      0.03          536G          49

    pool5      11       204M      0.04          536G          52

    pool6      12       148M      0.03          536G          38

    pool7      13       184M      0.03          536G          47

    pool8      14       200M      0.04          536G          51

    pool9      15       200M      0.04          536G          51

    pool10     16       248M      0.04          536G          63

    pool11     17       232M      0.04          536G          59

    pool12     18       264M      0.05          536G          67

查看存储池的pg个数

[root@lab8106 ~]# ceph osd dump|grep pool

pool 6 'rbd' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 132 flags hashpspool stripe_width 0

pool 7 'pool1' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 134 flags hashpspool stripe_width 0

pool 8 'pool2' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 136 flags hashpspool stripe_width 0

pool 9 'pool3' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 138 flags hashpspool stripe_width 0

pool 10 'pool4' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 140 flags hashpspool stripe_width 0

pool 11 'pool5' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 142 flags hashpspool stripe_width 0

pool 12 'pool6' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 144 flags hashpspool stripe_width 0

pool 13 'pool7' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 146 flags hashpspool stripe_width 0

pool 14 'pool8' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 148 flags hashpspool stripe_width 0

pool 15 'pool9' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 150 flags hashpspool stripe_width 0

pool 16 'pool10' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 152 flags hashpspool stripe_width 0

pool 17 'pool11' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 154 flags hashpspool stripe_width 0

pool 18 'pool12' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 200 pgp_num 200 last_change 156 flags hashpspool stripe_width 0

我们看下这个是怎么得到的

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

rbd objects_per_pg = 15296 / 8 = 1912

objects_per_pg = 15920 /417 ≈ 38

50.3158 = rbd objects_per_pg / objects_per_pg = 1912 / 38

也就是出现其他pool的对象太少，而这个pg少，对象多，就会提示这个了，我们看下代码里面的判断

https://github.com/ceph/ceph/blob/master/src/mon/PGMonitor.cc

 int average_objects_per_pg = pg_map.pg_sum.stats.sum.num_objects / pg_map.pg_stat.size();

      if (average_objects_per_pg > 0 &&

          pg_map.pg_sum.stats.sum.num_objects >= g_conf->mon_pg_warn_min_objects &&

          p->second.stats.sum.num_objects >= g_conf->mon_pg_warn_min_pool_objects) {

	int objects_per_pg = p->second.stats.sum.num_objects / pi->get_pg_num();

	float ratio = (float)objects_per_pg / (float)average_objects_per_pg;

	if (g_conf->mon_pg_warn_max_object_skew > 0 &&

	    ratio > g_conf->mon_pg_warn_max_object_skew) {

	  ostringstream ss;

	  ss << "pool " << name << " has many more objects per pg than average (too few pgs?)";

	  summary.push_back(make_pair(HEALTH_WARN, ss.str()));

	  if (detail) {

	    ostringstream ss;

	    ss << "pool " << name << " objects per pg ("

	       << objects_per_pg << ") is more than " << ratio << " times cluster average ("

	       << average_objects_per_pg << ")";

	    detail->push_back(make_pair(HEALTH_WARN, ss.str()));

	  }

主要下面的几个限制条件

mon_pg_warn_min_objects = 10000 //总的对象超过10000

mon_pg_warn_min_pool_objects = 1000 //存储池对象超过1000

mon_pg_warn_max_object_skew = 10 //就是上面的存储池的平均对象与所有pg的平均值的倍数关系

解决问题

有三个方法解决这个警告的提示：

删除无用的存储池

如果集群中有一些不用的存储池，并且相对的pg数目还比较高，那么可以删除一些这样的存储池，从而降低mon_pg_warn_max_object_skew这个值，警告就会没有了
增加提示的pool的pg数目

有可能的情况就是，这个存储池的pg数目从一开始就不够，增加pg和pgp数目，同样降低了mon_pg_warn_max_object_skew这个值了
增加mon_pg_warn_max_object_skew的参数值

如果集群里面已经有足够多的pg了，再增加pg会不稳定，如果想去掉这个警告，就可以增加这个参数值，默认为10

总结

这个警告是比较的是存储池中的对象数目与整个集群的pg的平均对象数目的偏差，如果偏差太大就会发出警告

检查的步骤：

ceph health detail

ceph df

ceph osd dump | grep pool

mon_pg_warn_max_object_skew = 10.0

((objects/pg_num) in the affected pool)/(objects/pg_num in the entire system) >= 10.0 警告就会出现

变更记录

Why	Who	When
创建	武汉-运维-磨渣	2016-07-27

Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)的更多相关文章

理解 OpenStack + Ceph （4）：Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
原文链接:http://www.cnblogs.com/sammyliu/p/4843812.html?utm_source=tuicool&utm_medium=referral 1 Poo ...
Kafka生产者案例报警告SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
一.SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 这个报警告的原因简单来说时因为slf4j的版本 ...
mac go环境报警告
go get -u github.com/beego/bee 报警告: # github.com/beego/beeld: warning: text-based stub file /System/ ...
IDEA maven 项目报警告解决（自己的maven配置记录）
IDEA maven 项目报警告解决应该是JDK版本太低虽然你装的高但是默认使用maven 默认的这里要配一下JDK版本理解不深入只为自己记录使用 1 配置仓库为阿里云配置本地储存j ...
写webpack插件报警告Tapable.plugin is deprecated. Use new API on .hooks instead解决方案，webpack4插件新写法
最近写了个小插件报了个警告,然后去百度了一下,全都给我说extract-text-webpack-plugin这个插件有问题要更新,我也是无语了,这个插件我用都没用,百度翻了下齐刷刷全是这个答案,搞得 ...
ceph集群jewel版本 rbd 块map 报错-故障排查
测试信息如下: [root@ceph_1 ~]# ceph osd pool lsrbdchy_123swimmingpool #新建rbd 块: rbd create swimmingpool/ba ...
ceph 005 赋权补充 rbd块映射
我的ceph版本 [root@serverc ~]# ceph -v ceph version 16.2.0-117.el8cp (0e34bb74700060ebfaa22d99b7d2cdc037 ...
ios8调用相机报警告: Snapshotting a view that has not been rendered results in an empty snapshot. Ensure you(转)
我这也报了这个警告,但按他的方法并没有起作用,把写到这个地方看是否其他人用的到错误代码:Snapshotting a view that has not been rendered results ...

随机推荐

vim插件配置
OS:kali linux tool:vim 上图: 0x00 需要用到的插件及其下载地址左边的一栏显示文件目录结构的用到的插件为 NERDTree 下载地址:https://github.com/ ...
package wang/test is not in GOROOT (/usr/local/go/src/wang/test)
如果要用 gopath模式引入包从src目录下开始引入需要关闭 go mod 模式 export GO111MODULE=off 如果使用go mod 模式 export GO111MODULE ...
linux(centos8):用fallocate快速生成大文件
一,fallocate的用途? 1,用途我们有时需要用大文件来测试下载速度, 有时需要用大文件来覆盖磁盘空间, 如果在网上搜索,很多文章讲的是使用dd等工具, 事实上linux系统已经内置了生成大文 ...
centos8平台使用journalctl管理systemd-journald日志
一,systemd-journald的作用 1,什么是systemd-journald? systemd-journald 是 systemd 自带的日志系统,是一个收集并存储各类日志数据的系统服务. ...
centos8平台使用ip命令代替ifconfig管理网络
一,为什么建议使用ip命令代替ifconfig? 1,ifconfig所属的net-tools包已经不再被维护了虽然可以用,但会发生看不到部分ip等情况, [root@centos8 liuhong ...
swagger使用随笔
2020-10-21 在一技术群里看到有个大佬想用 swagger 实现个功能:基础 Api 项目中写好通用的接口,配置好 swagger .上级项目直接引用项目,就能访问 swagger 起来用.相 ...
hystrix线程池隔离的原理与验证
引子幸福很简单: 今天项目半年规划被通过,终于可以早点下班.先坐公交,全程开着灯,买了了几天的书竟然有时间看了.半小时后,公交到站,换乘大巴车.车还等着上人的功夫,有昏暗的灯光,可以继续看会儿书.过 ...
zookeeper在Dubbo中角色与作用
作者:倪炜链接:http://www.zhihu.com/question/25070185/answer/86166486来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处 ...
puk1521 赫夫曼树编码
Description An entropy encoder is a data encoding method that achieves lossless data compression by ...
【转】Optimized Surface Loading and Soft Stretching
FROM:http://lazyfoo.net/tutorials/SDL/05_optimized_surface_loading_and_soft_stretching/index.php Opt ...