脑残手贱:被NFS祸害的调度系统
建议:任何时候,都要三思而后行!!!
事请的缘由
系统中采用slurm调度系统来进行并行计算。但是在GPU节点上,无论如何都无法启动slurmd,报插件初始化错误的故障。
因此需要编译新的munge和slurm来确认是否是软件版本和操作系统版本不不兼容造成的。
悲剧的发生
我们的系统,共享的应用环境放置在NAS上的NFS文件系统。我在A节点上已经卸载了NFS文件,然后挂载点(本地目录)上编译新版本,启动了slurm之后,还是有问题。
因此需要更换一个节点B试试,直接把文件拷贝到B节点很方便。
因此很熟练的scp -r munge-0.5.12 B:$(pwd),看着文档被覆盖,一切都这么顺利的时候,我的内心突然一阵惶恐!
没错,NFS对于所有节点都是可读写的。我神不知鬼不觉地用A 节点上centos7编译的munge覆盖了B节点上NFS挂载的centos6编译的munge,那一刻,我的世界坍塌了。
赶紧找个节点,提交我的测试算例。看着一堆的报错,那一刻我的心都碎了,是的没错,果然影响了在线的系统。完了,彻底完了!
赶紧给领导打电话,说我手残了,系统被我搞垮了,领导安抚了一下我,赶紧把旧的恢复回去,slurm超时300s,来的及的话,还能够拯救。
绝处逢生
我赶忙找找我是否备份了之前的文件。
幸运的是,我在A节点的本地目录下,CP了一份munge.0.5.12.nas_nfs,这就是之前的那个了,万幸!。只要将这个目录再次拷贝回去,应该是没有问题的。
慌不择路。
我scp -r munge.0.5.12.nas_nfs 到NAS上的同一个目录时,发现还是没有拯救回来,报错GLIBC的问题。完了,彻底完了。真的要重新编译吗?可是那耗时还是太长了。
我cd 到munge的目录下,发现把 munge.0.5.12.nas_nfs拷贝到了 munge.0.5.12目录下,也就是说:scp这个目录用错了,没有覆盖,而是拷贝到目标目录下了。
似乎有了希望。
为了确保万无一失,我把munge-0.5.12下的东西全部删除,然后在munge.0.5.12.nas_nfs目录下mv * ../。
然后我批量处理所有节点,启动munged,从SUCCESS的字段我看到了自己的命可能保住了。
然后sinfo看到了所有节点还是down。看来的确是slurm通信已经超时,slurm的控制器已经认为节点死了。只能够重新启动slurmd了
批量执行之后,看到SUCCESS之后,我想这次虽然把系统拯救好了,但是那些排队的计算任务,已经无法再次复活了,只能等待重新提交了。
总结
- 备份。很重要很重要。假如没有备份的东西,我已经被枪杀了。
- 细节。因为没有卸载B节点的NFS,所有直接覆盖了全部节点的共享目录,导致系统出错。
- 冷静。还是那句话,故障不要紧,要紧的是无法修复故障。。
- 沉着。 运维这个工作,平时没你啥事,有你啥事的时候就有可能是天塌下来的责任。
无论是测试还是上线,旁边最好坐个backuper,不然脑子不够使,毁了系统可能还在傻呵呵地笑
运维最大的难度在于:脑残和手贱。以此为戒,绝不再犯!
脑残手贱:被NFS祸害的调度系统的更多相关文章
- hash 表 | | jzoj 1335 | | 脑残+手残 | | 集合的关系
给定两个集合A.B,集合内的任一元素x满足1 ≤ x ≤ 10^9,并且每个集合的元素个数不大于10^5.我们希望求出A.B之间的关系. 给定两个集合的描述,判断它们满足下列关系的哪一种:A是B的一个 ...
- 脑残式网络编程入门(一):跟着动画来学TCP三次握手和四次挥手
.引言 网络编程中TCP协议的三次握手和四次挥手的问题,在面试中是最为常见的知识点之一.很多读者都知道“三次”和“四次”,但是如果问深入一点,他们往往都无法作出准确回答. 本篇文章尝试使用动画图片的方 ...
- [转帖]脑残式网络编程入门(一):跟着动画来学TCP三次握手和四次挥手
脑残式网络编程入门(一):跟着动画来学TCP三次握手和四次挥手 http://www.52im.net/thread-1729-1-1.html 1.引言 网络编程中TCP协议的三次握手和 ...
- 手贱的回忆录 --- L版openrc密码修改(OS_PASSWORD)
---恢复内容开始--- 刚刚部署完L版,发现默认登录的管理员账号在41.42.43的openrc文件中,登录名是admin,登录密码却是一串随机码,于是想修改一个简单易记的密码,手贱的把OS_PAS ...
- 在Ubuntu里部署Javaweb环境脑残版
最近在瞎折腾Unbunt,喜欢这里的干净和静谧.能留在这里,那么就得在这里工作,于是部署javaweb就成了头件大事了. 咨询了大牛,都说不会命令你玩毛玩linux,但是万万没有想到,原来ubuntu ...
- 手贱随手在Linux敲了 as 命令,出不来了
手贱随手在Linux敲了 as 命令,出不了命令,问问度娘吧,得到下列资料 as命令 GNU组织推出的一款汇编语言编译器,它支持多种不同类型的处理器.语法as(选项)(参数)选项-ac:忽略失败条 ...
- 脑残式网络编程入门(六):什么是公网IP和内网IP?NAT转换又是什么鬼?
本文引用了“帅地”发表于公众号苦逼的码农的技术分享. 1.引言 搞网络通信应用开发的程序员,可能会经常听到外网IP(即互联网IP地址)和内网IP(即局域网IP地址),但他们的区别是什么?又有什么关系呢 ...
- 脑残式网络编程入门(五):每天都在用的Ping命令,它到底是什么?
本文引用了公众号纯洁的微笑作者奎哥的技术文章,感谢原作者的分享. 1.前言 老于网络编程熟手来说,在测试和部署网络通信应用(比如IM聊天.实时音视频等)时,如果发现网络连接超时,第一时间想到的就是 ...
- 脑残式网络编程入门(四):快速理解HTTP/2的服务器推送(Server Push)
本文原作者阮一峰,作者博客:ruanyifeng.com. 1.前言 新一代HTTP/2 协议的主要目的是为了提高网页性能(有关HTTP/2的介绍,请见<从HTTP/0.9到HTTP/2:一文读 ...
随机推荐
- 再起航,我的学习笔记之JavaScript设计模式25(迭代器模式)
迭代器模式 概念介绍 迭代器模式(Iterator): 在不暴露对象内部结构的同时,可以顺序地访问聚合对象内部的元素. 迭代器 程序中的循环是一种利器,循环语句也使我们程序开发更简洁高效,但是有时一遍 ...
- 小知识点-ios跳过app store更新版本
版本更新实现的思路 获取自身的版本号 获取AppStore的版本号 自身的版本号和AppStore的比较 弹窗提示所需数据的获取的方式 1.获取自身的版本号 2.AppStore的版本号 Wechat ...
- 1.在CentOS 6.4安装python3
CentOS安装Python3.X 1.系统环境说明 [root@Python ~]# uname -r 2.6.32-431.el6.i686 [root@Python ~]# uname -m i ...
- Minutes和TotalMinutes的区别
今天测试提了一个BUG,说是消息提醒的时机不对,设置的提前2小时,还没到就提醒了. 看了下代码 (m.ExpectReceiveTime - DateTime.Now).Minutes < (p ...
- /MD、/MT、/LD( 使用 多线程版本 运行时库的C runtime library)
/MD./MT./LD(使用运行时库)(微软官网解释) Visual C++ 编译器选项 /MD./ML./MT./LD 区别 指定与你项目连接的运行期库 /MT多线程应用程序 /Mtd多线程应用程序 ...
- 分享基于分布式Http长连接框架--架构模型
我画了个简单的架构图来帮助说明: 其实为发布订阅架构模式. 生产者和消费者我们统一可理解为客户端,消息中间件可认为是服务端. 生产者和消费者做为客户端要跟服务端交互,则先通过代理订阅服务端,订阅成功后 ...
- 约会安排HDU - 4553
寒假来了,又到了小明和女神们约会的季节. 小明虽为屌丝级码农,但非常活跃,女神们常常在小明网上的大段发言后热情回复"呵呵",所以,小明的最爱就是和女神们约会.与此同时,也有很多基 ...
- 《算法导论》学习总结 — XX.第22章 图的基本算法
BFS(广搜): 广搜就是广度优先搜索,根据名字可以知道,是通过广度来遍历图,也就是层次遍历吧. 在这里以及下面的DFS(深搜),都用到了颜色WHITE,GRAY,BLACK,不过作用不同,具体分别再 ...
- Linux视频主要概述
Linux当中称之为视频的主要为俩个方面(主要以kernel为主): 1.源代码video目录指的是主显示输出,也就是帧缓冲(Frame Buffer)驱动部分,表示对基本图形层的显示支持; 2.源代 ...
- 干货,比较全面的c#.net公共帮助类
比较全面的c#帮助类 比较全面的c#帮助类,日常工作收集,包括前面几家公司用到的,各式各样的几乎都能找到,所有功能性代码都是独立的类,类与类之间没有联系,可以单独引用至项目,分享出来,方便大家,几乎都 ...