实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI
这两天实验室的服务器总是崩溃,重启已经不能解决问题了,由于是跑深度学习的服务器,而且还是承接国家级项目的运行服务器,可以说是实验室的主要生产力了,给出报错的日志:
Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 07:37:46 rootroot kernel: [ 10.034623] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input2
Oct 16 07:37:46 rootroot kernel: [ 10.035662] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input3
Oct 16 07:37:46 rootroot kernel: [ 10.036394] input: HDA NVidia HDMI/DP,pcm=9 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input4
Oct 16 07:37:46 rootroot kernel: [ 10.323371] bnxt_en 0000:18:00.0 eno1np0: NIC Link is Up, 1000 Mbps full duplex, Flow control: none
Oct 16 07:37:46 rootroot kernel: [ 10.323374] bnxt_en 0000:18:00.0 eno1np0: EEE is not active
Oct 16 07:37:46 rootroot kernel: [ 10.323376] bnxt_en 0000:18:00.0 eno1np0: FEC autoneg off encodings: None
Oct 16 07:37:46 rootroot kernel: [ 11.444137] new mount options do not match the existing superblock, will be ignored
Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793622] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 16 09:54:59 rootroot kernel: [ 8243.793633] CR2: 00000000000000b1 CR3: 0000003f65f82003 CR4: 00000000007606e0
Oct 16 09:54:59 rootroot kernel: [ 8243.793646] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793660] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 16 09:54:59 rootroot kernel: [ 8243.793674] PKRU: 55555554
Oct 16 09:54:59 rootroot kernel: [ 8243.793681] Call Trace:
Oct 16 09:54:59 rootroot kernel: [ 8243.793857] ? _nv031847rm+0x82/0x270 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794036] ? _nv031880rm+0x17/0x30 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794217] ? _nv022845rm+0xc0/0x1b0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794397] ? _nv022850rm+0x11b/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794576] ? _nv022850rm+0x211/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794755] ? _nv022852rm+0x310/0x310 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794855] ? _nv023526rm+0x32d/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794954] ? _nv023526rm+0x304/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795056] ? _nv000719rm+0x32a/0x680 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795183] ? _nv000712rm+0x178a/0x2350 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795311] ? rm_init_adapter+0xc5/0xe0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795397] ? nv_open_device+0x3e7/0x870 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795484] ? nvidia_open+0x310/0x510 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795573] ? nvidia_frontend_open+0x58/0xa0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795587] ? chrdev_open+0xc4/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.795600] ? do_dentry_open+0x21d/0x370
Oct 16 09:54:59 rootroot kernel: [ 8243.796036] ? __inode_permission+0x5b/0x160
Oct 16 09:54:59 rootroot kernel: [ 8243.796446] ? cdev_put.part.2+0x20/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.796852] ? vfs_open+0x4f/0x80
Oct 16 09:54:59 rootroot kernel: [ 8243.797246] ? path_openat+0x6bf/0x18b0
Oct 16 09:54:59 rootroot kernel: [ 8243.797626] ? filename_lookup+0xf2/0x190
Oct 16 09:54:59 rootroot kernel: [ 8243.798005] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.798385] ? do_filp_open+0x9b/0x110
Oct 16 09:54:59 rootroot kernel: [ 8243.798753] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.799111] ? __alloc_fd+0x46/0x170
Oct 16 09:54:59 rootroot kernel: [ 8243.799453] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.799782] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.800094] ? SyS_openat+0x14/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.800394] ? do_syscall_64+0x73/0x130
Oct 16 09:54:59 rootroot kernel: [ 8243.800681] ? entry_SYSCALL_64_after_hwframe+0x41/0xa6
Oct 16 09:54:59 rootroot kernel: [ 8243.800958] Code: a7 07 00 00 41 bf 01 00 00 00 4c 8d 65 48 31 db 44 89 7d 10 66 0f 1f 44 00 00 41 f6 c5 01 0f 84 90 00 00 00 49 8b 86 30 1a 00 00 <80> b8 b1 00 00 00 00 74 12 b8 01 00 00 00 89 d9 d3 e0 41 85 86
====================================================
这个报错日志显示的是内核问题,是SMP构架下CPU同步超时后死锁,但是导致这个问题的进程又是NVIDIA的nv_queue,从这些信息上也是找不到如何解决的方法,也看了下网上相关的post:
465.24.02 page fault
于是大胆的猜测是NVIDIA的驱动问题,不过这服务器平时运行的好好的怎么会突然驱动有问题呢,这样一想又有些自相矛盾,不过再一想是不是有可能是有的用户跑了一些不兼容的cuda代码呢,因为以我的经验来说,我是知道一些TensorFlow1.x的代码运行在RTX2090或者是RTX3090显卡是会造成死机的,这样是不是可以推定到pytorch上呢,这么一想或许还真可能是显卡驱动的问题。于是我给出的解决方法就是升级系统(upgrade-release),然后再upgrade一下显卡的驱动,那么这样行不行呢,不清楚,先这样运行一段时间看看,如果不报错,不再死机就证明好用,如果这样的话本文就不再更新了。
还是希望这个法子可行,本文也不要再update了,毕竟兼职负责实验室服务器管理和当实验室的免费网管也不是啥好事情,劳心劳力还没回报。
Linux系统内核报错导致的死机,最好的解决方法或许就是升级内核!!!
====================================================
实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI的更多相关文章
- 从零开始搭建实验室Ubuntu服务器 | 深度学习工作站
一个标准的数据分析码农必须要配一台超薄笔记本和一台高性能服务器,笔记本是日常使用,各种小问题的解决,同时也是用于远程连接终端服务器:高性能服务器就是核心的处理数据的平台,CPU.内存.硬盘容量.GPU ...
- 深度学习PyTorch入门(1):3060 Pytorch+pycharm环境搭建
WIN10, NVIDIA GeForce RTX 3060 python 3.7, CUDAv11.1.1, PyTorch 1.9, PyCharm 1.安装anacodah和PyCharm: ...
- 在服务器的docker里 装anacond3深度学习环境的全流程超基础
背景: 实验室给我分配了一个服务器 已经装好了docker 和nvidi docker . 现在我的目标是创建我自己的docker 然后在我自己的docker里装上anaconda环境. 我以前从 ...
- 深度学习菜鸟的信仰地︱Supervessel超能云服务器、深度学习环境全配置
并非广告~实在是太良心了,所以费时间给他们点赞一下~ SuperVessel云平台是IBM中国研究院和中国系统与技术中心基于POWER架构和OpenStack技术共同构建的, 支持开发者远程开发的免费 ...
- 远程连接服务器jupyter notebook、浏览器以及深度学习可视化方法
h1 { counter-reset: h2counter; } h2 { counter-reset: h3counter; } h3 { counter-reset: h4counter; } h ...
- 使用亚马逊云服务器EC2做深度学习(四)配置好的系统镜像
这是<使用亚马逊云服务器EC2做深度学习>系列的第四篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
- 使用亚马逊云服务器EC2做深度学习(三)配置TensorFlow
这是<使用亚马逊云服务器EC2做深度学习>系列的第三篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
- 使用亚马逊云服务器EC2做深度学习(二)配置Jupyter Notebook服务器
这是<使用亚马逊云服务器EC2做深度学习>系列的第二篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
- 使用亚马逊云服务器EC2做深度学习(一)申请竞价实例
这是<使用亚马逊云服务器EC2做深度学习>系列的第一篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
- 服务器搭建远程docker深度学习环境
服务器搭建远程docker深度学习环境 本文大部分内容参考知乎文章 Docker+PyCharm快速搭建机器学习开发环境 搭建过程中出现ssh连接问题可以查看最后的注意事项 Docker Docker ...
随机推荐
- 搭建第一个web项目
实现使用: 1.创建一个普通java文件 2.Java文件的类名实现HttpServlet 3.重写service方法 4.在WEB-INF下的web.xml中添加请求与servlet类的映射关系 定 ...
- CLR via C# 笔记 -- 数组(16)
1. 数组隐式继承 System.Array,所以数组是引用类型.变量包含的是对数组的引用,而不是包含数据本身的元素. 2. 数组协变性.将数组从一种类型转换为另一种类型. string[] sa = ...
- 15分钟面试被5连CALL,你扛得住么?
最近一个朋友跳槽找工作,跟V 哥说被15分钟内一个问题5连 CALL,还好是自己比较熟悉的技术点,面试官最后跟他说,面了几十个人,你是第一个回答比较满意的,我好奇都是什么问题,原来是关于锁的问题连环问 ...
- Android系统启动:3-zygote篇
Android系统启动:zygote篇 原文:http://gityuan.com/2016/02/13/android-zygote/ 基于Android 6.0的源码剖析, 分析Android启动 ...
- 在Linux应用层使用POSIX定时器
在Linux应用层使用POSIX定时器 ref : http://blog.chinaunix.net/uid-28458801-id-5035347.html http://blog.sina.co ...
- 【冷启动#1】实用的MySQL基础
简单安装一下MySQL Windows下(5.7.x) 本体安装 1.首先先下载安装包,名字如下: mysql-5.7.19-winx64.zip 2.配置环境变量,将解压之后的bin目录添加一下 3 ...
- Chrome插件:Postman Interceptor 调试的终极利器
今天给大家介绍一款非常实用的工具--Postman Interceptor. 这个工具可以捕捉任何网站的请求,并将其发送到Postman客户端. 对于经常和API打交道的程序员来说,Postman I ...
- 在Docker中搭建rabbit MQ集群 (Mac + OrbStack)
我以为用docker搭建一个rabbitMq集群会非常简单,但是结果却出乎意料,我花了差不多两个半天才搞定.这还是依赖了AI的协助,否则难度不敢想象. 我的环境是Mac上的OrbStack.用了Kim ...
- Docker 总体架构图解
Docker 的总体架构 Docker 是一个 C/S 模式的架构,后端是一个松耦合架构,模块各司其职. 下图是它的总体架构图: 1. 用户使用 Docker Client 与 Docker Daem ...
- Quartus Ⅱ调用FIFO IP核方法实现求和(Mega Wizard)
摘要:本次实验学习记录主题为"FIFO_IP核实现算术求和",主要内容是上位机通过串口向FPGA发送一定规格的数字矩阵,FPGA对矩阵处理,按规定逻辑实现求和运算,将结果返回串口转 ...