场景回顾: 测试集群节点分配:35,36是namenode且开启HA,37,38,39即作为datanode,又作为journalnode. 某时间 38节点磁盘爆满,集群中hdfs及依赖的服务全部宕掉. 之后虽然将38节点清除一部分多余数据,但集群服务仍然不正常:namenode启动的时候两个都是standby,几分钟后自动关闭:datanode正常:journal正常:zkfc正常 调查过程: 查看namenode日志,显示一直在尝试连接journal,并显示 2017-08-14 17:0…