一.背景 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了.而在这些公司中,也有很多家公司的 日数据增长达到100TB+ 了. 所以我们每天都要观察集群的数据增长,观察是否有哪一天.哪个路径增长过猛了,是否增长了很多垃圾数据:继续深挖下去,看看是不是可以删掉无用的数据. 此外我们还要做“容量预估“,把未来的数据增长规划出来,主要是依靠数据增长斜率计算出未来一个季度后的数据量,再把机器采购需求汇报出去. 在上一篇<基于FsImage的H…