这两天实验室的服务器总是崩溃，重启已经不能解决问题了，由于是跑深度学习的服务器，而且还是承接国家级项目的运行服务器，可以说是实验室的主要生产力了，给出报错的日志：

Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 07:37:46 rootroot kernel: [ 10.034623] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input2
Oct 16 07:37:46 rootroot kernel: [ 10.035662] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input3
Oct 16 07:37:46 rootroot kernel: [ 10.036394] input: HDA NVidia HDMI/DP,pcm=9 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input4
Oct 16 07:37:46 rootroot kernel: [ 10.323371] bnxt_en 0000:18:00.0 eno1np0: NIC Link is Up, 1000 Mbps full duplex, Flow control: none
Oct 16 07:37:46 rootroot kernel: [ 10.323374] bnxt_en 0000:18:00.0 eno1np0: EEE is not active
Oct 16 07:37:46 rootroot kernel: [ 10.323376] bnxt_en 0000:18:00.0 eno1np0: FEC autoneg off encodings: None
Oct 16 07:37:46 rootroot kernel: [ 11.444137] new mount options do not match the existing superblock, will be ignored
Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793622] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 16 09:54:59 rootroot kernel: [ 8243.793633] CR2: 00000000000000b1 CR3: 0000003f65f82003 CR4: 00000000007606e0
Oct 16 09:54:59 rootroot kernel: [ 8243.793646] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793660] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 16 09:54:59 rootroot kernel: [ 8243.793674] PKRU: 55555554
Oct 16 09:54:59 rootroot kernel: [ 8243.793681] Call Trace:
Oct 16 09:54:59 rootroot kernel: [ 8243.793857] ? _nv031847rm+0x82/0x270 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794036] ? _nv031880rm+0x17/0x30 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794217] ? _nv022845rm+0xc0/0x1b0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794397] ? _nv022850rm+0x11b/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794576] ? _nv022850rm+0x211/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794755] ? _nv022852rm+0x310/0x310 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794855] ? _nv023526rm+0x32d/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794954] ? _nv023526rm+0x304/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795056] ? _nv000719rm+0x32a/0x680 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795183] ? _nv000712rm+0x178a/0x2350 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795311] ? rm_init_adapter+0xc5/0xe0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795397] ? nv_open_device+0x3e7/0x870 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795484] ? nvidia_open+0x310/0x510 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795573] ? nvidia_frontend_open+0x58/0xa0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795587] ? chrdev_open+0xc4/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.795600] ? do_dentry_open+0x21d/0x370
Oct 16 09:54:59 rootroot kernel: [ 8243.796036] ? __inode_permission+0x5b/0x160
Oct 16 09:54:59 rootroot kernel: [ 8243.796446] ? cdev_put.part.2+0x20/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.796852] ? vfs_open+0x4f/0x80
Oct 16 09:54:59 rootroot kernel: [ 8243.797246] ? path_openat+0x6bf/0x18b0
Oct 16 09:54:59 rootroot kernel: [ 8243.797626] ? filename_lookup+0xf2/0x190
Oct 16 09:54:59 rootroot kernel: [ 8243.798005] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.798385] ? do_filp_open+0x9b/0x110
Oct 16 09:54:59 rootroot kernel: [ 8243.798753] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.799111] ? __alloc_fd+0x46/0x170
Oct 16 09:54:59 rootroot kernel: [ 8243.799453] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.799782] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.800094] ? SyS_openat+0x14/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.800394] ? do_syscall_64+0x73/0x130
Oct 16 09:54:59 rootroot kernel: [ 8243.800681] ? entry_SYSCALL_64_after_hwframe+0x41/0xa6
Oct 16 09:54:59 rootroot kernel: [ 8243.800958] Code: a7 07 00 00 41 bf 01 00 00 00 4c 8d 65 48 31 db 44 89 7d 10 66 0f 1f 44 00 00 41 f6 c5 01 0f 84 90 00 00 00 49 8b 86 30 1a 00 00 <80> b8 b1 00 00 00 00 74 12 b8 01 00 00 00 89 d9 d3 e0 41 85 86

====================================================

这个报错日志显示的是内核问题，是SMP构架下CPU同步超时后死锁，但是导致这个问题的进程又是NVIDIA的nv_queue，从这些信息上也是找不到如何解决的方法，也看了下网上相关的post:

465.24.02 page fault

于是大胆的猜测是NVIDIA的驱动问题，不过这服务器平时运行的好好的怎么会突然驱动有问题呢，这样一想又有些自相矛盾，不过再一想是不是有可能是有的用户跑了一些不兼容的cuda代码呢，因为以我的经验来说，我是知道一些TensorFlow1.x的代码运行在RTX2090或者是RTX3090显卡是会造成死机的，这样是不是可以推定到pytorch上呢，这么一想或许还真可能是显卡驱动的问题。于是我给出的解决方法就是升级系统（upgrade-release），然后再upgrade一下显卡的驱动，那么这样行不行呢，不清楚，先这样运行一段时间看看，如果不报错，不再死机就证明好用，如果这样的话本文就不再更新了。

还是希望这个法子可行，本文也不要再update了，毕竟兼职负责实验室服务器管理和当实验室的免费网管也不是啥好事情，劳心劳力还没回报。

Linux系统内核报错导致的死机，最好的解决方法或许就是升级内核！！！

====================================================

实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI的更多相关文章

从零开始搭建实验室Ubuntu服务器 | 深度学习工作站
一个标准的数据分析码农必须要配一台超薄笔记本和一台高性能服务器,笔记本是日常使用,各种小问题的解决,同时也是用于远程连接终端服务器:高性能服务器就是核心的处理数据的平台,CPU.内存.硬盘容量.GPU ...
深度学习PyTorch入门（1）：3060 Pytorch+pycharm环境搭建
WIN10, NVIDIA GeForce RTX 3060 python 3.7, CUDAv11.1.1, PyTorch 1.9, PyCharm 1.安装anacodah和PyCharm: ...
在服务器的docker里装anacond3深度学习环境的全流程超基础
背景: 实验室给我分配了一个服务器已经装好了docker 和nvidi docker . 现在我的目标是创建我自己的docker 然后在我自己的docker里装上anaconda环境. 我以前从 ...
深度学习菜鸟的信仰地︱Supervessel超能云服务器、深度学习环境全配置
并非广告~实在是太良心了,所以费时间给他们点赞一下~ SuperVessel云平台是IBM中国研究院和中国系统与技术中心基于POWER架构和OpenStack技术共同构建的, 支持开发者远程开发的免费 ...
远程连接服务器jupyter notebook、浏览器以及深度学习可视化方法
h1 { counter-reset: h2counter; } h2 { counter-reset: h3counter; } h3 { counter-reset: h4counter; } h ...
使用亚马逊云服务器EC2做深度学习（四）配置好的系统镜像
这是<使用亚马逊云服务器EC2做深度学习>系列的第四篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
使用亚马逊云服务器EC2做深度学习（三）配置TensorFlow
这是<使用亚马逊云服务器EC2做深度学习>系列的第三篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
使用亚马逊云服务器EC2做深度学习（二）配置Jupyter Notebook服务器
这是<使用亚马逊云服务器EC2做深度学习>系列的第二篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
使用亚马逊云服务器EC2做深度学习（一）申请竞价实例
这是<使用亚马逊云服务器EC2做深度学习>系列的第一篇文章. (一)申请竞价实例 (二)配置Jupyter Notebook服务器 (三)配置TensorFlow (四)配置好的系统 ...
服务器搭建远程docker深度学习环境
服务器搭建远程docker深度学习环境本文大部分内容参考知乎文章 Docker+PyCharm快速搭建机器学习开发环境搭建过程中出现ssh连接问题可以查看最后的注意事项 Docker Docker ...

随机推荐

如何基于R包做GO分析？实现秒出图
GO分析基因本体论(Gene Ontology, GO)是一个用于描述基因和基因产品属性的标准术语体系.它提供了一个有组织的方式来表示基因在生物体内的各种角色.基因本体论通常从三个层面对基因进行描述 ...
java8 lambda Group分组示例
导入jar包<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</a ...
Vs生成后自动压缩删除多余xml
setlocal enabledelayedexpansionset ProjectName=$(ProjectName)del /s /q /f "$(ProjectDir)bin\Deb ...
本地自建KMS服务器
本地自建KMS服务器本地自建KMS服务器一.前期准备下载安装以下软件.文件: VMware Github中的开源项目:vlmcsd 二.在VMware下部署KMS服务器解压vlmcsd项目中r ...
记一次debian无法启动的解决经历
前言有几台debian物理机突然无法开机了,断电重启后,一直卡在下面这个界面参考了博客[linux]解决系统卡在ubuntu loading initial ramdisk 发现无法修复在rec ...
使用C#/.NET解析Wiki百科数据实现获取历史上的今天
创建一个webapi项目做测试使用. 创建新控制器,搭建一个基础框架,包括获取当天日期.wiki的请求地址等创建一个Http请求帮助类以及方法,用于获取指定URL的信息使用http请求访问 ...
第五节 JMeter基础-初级登录【断言的好处】
声明:本文所记录的仅本次操作学习到的知识点,其中商城IP错误,请自行更改. 1．认识JMeter (1)断言预期结果和实际结果的比较,如果不一样,断言失败. 2．注册 (1)直接复制[登录]粘贴一下 ...
.NET Core 3.x 基于Autofac的AOP缓存
一.依赖包二.定义一个简单的缓存接口 /// <summary> /// 简单的缓存接口,只有查询和添加,以后会进行扩展 /// </summary> public inte ...
靶机: EvilBox---One
靶机: EvilBox---One 准备工作靶机地址: https://download.vulnhub.com/evilbox/EvilBox---One.ova MD5 校验:c3a65197b ...
深度学习玩游戏 Q-LEARNING
游戏里面非玩家的角色行为,即 AI. 腾讯的 Ai 游戏框架:TencentOpen. 介绍: Agent,behavior tree, 大概意思就是通过自己的框架来确定 ai 行为,然后通过 ag ...

实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI

465.24.02 page fault

实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI的更多相关文章

随机推荐

热门专题