Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)

定位问题

[root@lab8106 ~]# ceph -s

    cluster fa7ec1a1-662a-4ba3-b478-7cb570482b62

     health HEALTH_WARN

            pool rbd has many more objects per pg than average (too few pgs?)

     monmap e1: 1 mons at {lab8106=192.168.8.106:6789/0}

            election epoch 30, quorum 0 lab8106

     osdmap e157: 2 osds: 2 up, 2 in

            flags sortbitwise

      pgmap v1023: 417 pgs, 13 pools, 18519 MB data, 15920 objects

            18668 MB used, 538 GB / 556 GB avail

                 417 active+clean

集群出现了这个警告，pool rbd has many more objects per pg than average (too few pgs?) 这个警告在hammer版本里面的提示是 pool rbd has too few pgs

这个地方查看集群详细信息：

[root@lab8106 ~]# ceph health detail

HEALTH_WARN pool rbd has many more objects per pg than average (too few pgs?); mon.lab8106 low disk space

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

看下集群的pool的对象状态

[root@lab8106 ~]# ceph df

GLOBAL:

    SIZE     AVAIL     RAW USED     %RAW USED

    556G      538G       18668M          3.28

POOLS:

    NAME       ID     USED       %USED     MAX AVAIL     OBJECTS

    rbd        6      16071M      2.82          536G       15296

    pool1      7        204M      0.04          536G          52

    pool2      8        184M      0.03          536G          47

    pool3      9        188M      0.03          536G          48

    pool4      10       192M      0.03          536G          49

    pool5      11       204M      0.04          536G          52

    pool6      12       148M      0.03          536G          38

    pool7      13       184M      0.03          536G          47

    pool8      14       200M      0.04          536G          51

    pool9      15       200M      0.04          536G          51

    pool10     16       248M      0.04          536G          63

    pool11     17       232M      0.04          536G          59

    pool12     18       264M      0.05          536G          67

查看存储池的pg个数

[root@lab8106 ~]# ceph osd dump|grep pool

pool 6 'rbd' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 8 pgp_num 8 last_change 132 flags hashpspool stripe_width 0

pool 7 'pool1' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 134 flags hashpspool stripe_width 0

pool 8 'pool2' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 136 flags hashpspool stripe_width 0

pool 9 'pool3' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 138 flags hashpspool stripe_width 0

pool 10 'pool4' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 140 flags hashpspool stripe_width 0

pool 11 'pool5' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 142 flags hashpspool stripe_width 0

pool 12 'pool6' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 144 flags hashpspool stripe_width 0

pool 13 'pool7' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 146 flags hashpspool stripe_width 0

pool 14 'pool8' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 148 flags hashpspool stripe_width 0

pool 15 'pool9' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 1 pgp_num 1 last_change 150 flags hashpspool stripe_width 0

pool 16 'pool10' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 152 flags hashpspool stripe_width 0

pool 17 'pool11' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 100 pgp_num 100 last_change 154 flags hashpspool stripe_width 0

pool 18 'pool12' replicated size 1 min_size 1 crush_ruleset 0 object_hash rjenkins pg_num 200 pgp_num 200 last_change 156 flags hashpspool stripe_width 0

我们看下这个是怎么得到的

pool rbd objects per pg (1912) is more than 50.3158 times cluster average (38)

rbd objects_per_pg = 15296 / 8 = 1912

objects_per_pg = 15920 /417 ≈ 38

50.3158 = rbd objects_per_pg / objects_per_pg = 1912 / 38

也就是出现其他pool的对象太少，而这个pg少，对象多，就会提示这个了，我们看下代码里面的判断

https://github.com/ceph/ceph/blob/master/src/mon/PGMonitor.cc

 int average_objects_per_pg = pg_map.pg_sum.stats.sum.num_objects / pg_map.pg_stat.size();

      if (average_objects_per_pg > 0 &&

          pg_map.pg_sum.stats.sum.num_objects >= g_conf->mon_pg_warn_min_objects &&

          p->second.stats.sum.num_objects >= g_conf->mon_pg_warn_min_pool_objects) {

	int objects_per_pg = p->second.stats.sum.num_objects / pi->get_pg_num();

	float ratio = (float)objects_per_pg / (float)average_objects_per_pg;

	if (g_conf->mon_pg_warn_max_object_skew > 0 &&

	    ratio > g_conf->mon_pg_warn_max_object_skew) {

	  ostringstream ss;

	  ss << "pool " << name << " has many more objects per pg than average (too few pgs?)";

	  summary.push_back(make_pair(HEALTH_WARN, ss.str()));

	  if (detail) {

	    ostringstream ss;

	    ss << "pool " << name << " objects per pg ("

	       << objects_per_pg << ") is more than " << ratio << " times cluster average ("

	       << average_objects_per_pg << ")";

	    detail->push_back(make_pair(HEALTH_WARN, ss.str()));

	  }

主要下面的几个限制条件

mon_pg_warn_min_objects = 10000 //总的对象超过10000

mon_pg_warn_min_pool_objects = 1000 //存储池对象超过1000

mon_pg_warn_max_object_skew = 10 //就是上面的存储池的平均对象与所有pg的平均值的倍数关系

解决问题

有三个方法解决这个警告的提示：

删除无用的存储池

如果集群中有一些不用的存储池，并且相对的pg数目还比较高，那么可以删除一些这样的存储池，从而降低mon_pg_warn_max_object_skew这个值，警告就会没有了
增加提示的pool的pg数目

有可能的情况就是，这个存储池的pg数目从一开始就不够，增加pg和pgp数目，同样降低了mon_pg_warn_max_object_skew这个值了
增加mon_pg_warn_max_object_skew的参数值

如果集群里面已经有足够多的pg了，再增加pg会不稳定，如果想去掉这个警告，就可以增加这个参数值，默认为10

总结

这个警告是比较的是存储池中的对象数目与整个集群的pg的平均对象数目的偏差，如果偏差太大就会发出警告

检查的步骤：

ceph health detail

ceph df

ceph osd dump | grep pool

mon_pg_warn_max_object_skew = 10.0

((objects/pg_num) in the affected pool)/(objects/pg_num in the entire system) >= 10.0 警告就会出现

变更记录

Why	Who	When
创建	武汉-运维-磨渣	2016-07-27

Ceph 状态报警告 pool rbd has many more objects per pg than average (too few pgs?)的更多相关文章

理解 OpenStack + Ceph （4）：Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
Ceph 的基础数据结构 [Pool, Image, Snapshot, Clone]
原文链接:http://www.cnblogs.com/sammyliu/p/4843812.html?utm_source=tuicool&utm_medium=referral 1 Poo ...
Kafka生产者案例报警告SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
一.SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 这个报警告的原因简单来说时因为slf4j的版本 ...
mac go环境报警告
go get -u github.com/beego/bee 报警告: # github.com/beego/beeld: warning: text-based stub file /System/ ...
IDEA maven 项目报警告解决（自己的maven配置记录）
IDEA maven 项目报警告解决应该是JDK版本太低虽然你装的高但是默认使用maven 默认的这里要配一下JDK版本理解不深入只为自己记录使用 1 配置仓库为阿里云配置本地储存j ...
写webpack插件报警告Tapable.plugin is deprecated. Use new API on .hooks instead解决方案，webpack4插件新写法
最近写了个小插件报了个警告,然后去百度了一下,全都给我说extract-text-webpack-plugin这个插件有问题要更新,我也是无语了,这个插件我用都没用,百度翻了下齐刷刷全是这个答案,搞得 ...
ceph集群jewel版本 rbd 块map 报错-故障排查
测试信息如下: [root@ceph_1 ~]# ceph osd pool lsrbdchy_123swimmingpool #新建rbd 块: rbd create swimmingpool/ba ...
ceph 005 赋权补充 rbd块映射
我的ceph版本 [root@serverc ~]# ceph -v ceph version 16.2.0-117.el8cp (0e34bb74700060ebfaa22d99b7d2cdc037 ...
ios8调用相机报警告: Snapshotting a view that has not been rendered results in an empty snapshot. Ensure you(转)
我这也报了这个警告,但按他的方法并没有起作用,把写到这个地方看是否其他人用的到错误代码:Snapshotting a view that has not been rendered results ...

随机推荐

使用python编写正逆序乘法表
# 99乘法表 # 顺序 for i in range(1,10): n = 1 while n <= i: print('{}x{}={}'.format(n,i,n*i),end=' ') ...
mysql 登陆与退出
Mysql登陆与退出登陆参数登陆命令 mysql -uroot -p 回车输入密码退出有三个命令: exit quit \q 修改mysql提示符连接mysql客户端时通过参数指定: 登 ...
2020年9月程序员工资统计，平均14459元！你给程序员拖后腿了吗？https://jq.qq.com/?_wv=1027&k=JMPndqoM
2020年9月全国招收程序员362409人.2020年9月全国程序员平均工资14459元,工资中位数12500元,其中95%的人的工资介于5250元到35000元. 工资与上个月持平,但是岗位有所增加 ...
linux(centos8):firewalld的运行时日志配置
一,firewalld配置日志的用途: 在生产环境中,firewalld的默认配置是不记录日志我们通过日志记录下防火墙过滤时拒绝的非法ip, 可以主动把这些有攻击性的ip加入到黑名单, 防患于未然 ...
【应用服务 App Service】Azure 应用服务测试网络访问其他域名及请求超时限制（4分钟 ≈ 230秒）
测试App Service是否可以访问其他DNS 当应用服务(Azure App Service)创建完成后,想通过ping命令来查看是否可以访问其他站点或解析DNS,但是发现ping命令无法使用.这 ...
因果推理综述——《A Survey on Causal Inference》一文的总结和梳理
因果推理本文档是对<A Survey on Causal Inference>一文的总结和梳理. 论文地址简介关联与因果先有的鸡,还是先有的蛋?这里研究的是因果关系,因果关系与普通 ...
jq ajax封装
//ajax公共方法,zs 2017-06-14 $.extend({ //比jq的ajax多了的参数: //salert是否在请求成功后弹出后台的SuressStr字段值 //ealertStr:请 ...
MVC IIS 403.14
描述:HTTP Error 403.14 - Forbidden The Web server is configured to not list the contents of this direc ...
ABAP CA CO CS CP 等操作符
DATA: L_STR1 TYPE STRING, L_STR2 TYPE STRING. L_STR1 = 'ca'. "匹配字符 L_STR2 = 'hubab'. "被匹配字 ...
AT3557 Four Coloring
题目链接题解先把每个格子看做一个点 (所谓的切比雪夫距离的转化) ,然后把这些点组成的矩形旋转45度,再把他塞到一个每个格子大小为$d*d$的网格图中,那么在一个格子上的点颜色相同代码 #i ...