最近某hadoop集群多次出现机器宕机,现象为瞬间机器的sys cpu增长至100%,机器无法登录.只能硬件重启,ganglia cpu信息如下: 首先怀疑有用户启动了比较奇葩的job,导致不合理的系统调用出现的问题.随后加了ps及pidstat信息收集job信息(公共集群蛋疼的地方),然后出现问题的时候,各类脚本已经无法工作, 一直没有抓到现场. 终于在某一次看到一台机器sys 瞬间增长,且机器还能登录.立马查看现场,发现竟然元凶是datanode:datanode一个进程占用cpu 1600…