建议:任何时候,都要三思而后行!!! 事请的缘由 系统中采用slurm调度系统来进行并行计算.但是在GPU节点上,无论如何都无法启动slurmd,报插件初始化错误的故障. 因此需要编译新的munge和slurm来确认是否是软件版本和操作系统版本不不兼容造成的. 悲剧的发生 我们的系统,共享的应用环境放置在NAS上的NFS文件系统.我在A节点上已经卸载了NFS文件,然后挂载点(本地目录)上编译新版本,启动了slurm之后,还是有问题. 因此需要更换一个节点B试试,直接把文件拷贝到B节点很方便. 因…