矩池云上使用nvidia-smi命令教程

简介

nvidia-smi全称是NVIDIA System Management Interface ，它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具，旨在帮助管理和监控NVIDIA GPU设备。

详解nvidia-smi命令

接下来我介绍一下，用nvidia-smi命令来查询机器GPU使用情况的相关内容。

nvidia-smi

我以上图的查询内容为例，已经复制出来了，如下，

(myconda) root@8dbdc324be74:~# nvidia-smi

Tue Jul 20 14:35:11 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

我们来拆分一下

NVIDIA-SMI 460.32.03          #

Driver Version: 460.32.03     # 英伟达驱动版本

CUDA Version: 11.2            # CUDA版本

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

GPU：                # GPU的编号，0代表第一张显卡，1代表第二张，依次类推

Fan：                # 风扇转速（0%–100%），N/A表示没有风扇

Name：               # GPU的型号，以此处为例是P100

Temp：               # GPU温度（GPU温度过高会导致GPU频率下降）

Perf：               # 性能状态，从P0（最大性能）到P12（最小性能）

Pwr：                # GPU功耗

Persistence-M：      #  持续模式的状态（持续模式耗能大，但在新的GPU应用启动时花费时间更少）

Bus-Id：             # GPU总线，domain:bus:device.function

Disp.A：             # Display Active，表示GPU的显示是否初始化

Memory-Usage：       # 显存使用率（显示显存占用情况）

Volatile GPU-Util：  # 浮动的GPU利用率

ECC：                # 是否开启错误检查和纠正技术，0/DISABLED, 1/ENABLED

Compute M.：         # 计算模式，0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

Memory-Usage和Volatile GPU-Util的两个不一样的东西，显卡由GPU和显存等部分所构成，GPU相当于显卡上的CPU，显存相当于显卡上的内存。在跑任务的过程中可以通过优化代码来提高这两者的使用率。

nvcc和nvidia-smi显示的CUDA版本不同？

(myconda) root@8dbdc324be74:~# nvidia-smi

Tue Jul 20 14:35:11 2021

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|                               |                      |               MIG M. |

|===============================+======================+======================|

|   0  Tesla P100-SXM2...  On   | 00000000:1C:00.0 Off |                    0 |

| N/A   27C    P0    31W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

|   1  Tesla P100-SXM2...  On   | 00000000:1D:00.0 Off |                    0 |

| N/A   25C    P0    32W / 300W |      0MiB / 16280MiB |      0%      Default |

|                               |                      |                  N/A |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                                  |

|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |

|        ID   ID                                                   Usage      |

|=============================================================================|

|  No running processes found                                                 |

+-----------------------------------------------------------------------------+

(myconda) root@8dbdc324be74:~# nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver

Copyright (c) 2005-2020 NVIDIA Corporation

Built on Mon_Oct_12_20:09:46_PDT_2020

Cuda compilation tools, release 11.1, V11.1.105

Build cuda_11.1.TC455_06.29190527_0

可以看到nvcc的CUDA版本是11.1，而nvidia-smi的CUDA版本是11.2。这对运行任务是没有影响的，绝大多数代码都是可以正常跑起来的，引起这个的主要是因为CUDA两个主要的API，runtime API和driver API。神奇的是这两个API都有自己对应的CUDA版本（如图上的11.1和11.2）。在StackOverflow有一个解释，如果driver API和runtime API的CUDA版本不一致可能是因为你使用的是单独的GPU driver installer，而不是CUDA Toolkit installer里的GPU driver installer。在矩池云上的表现可以解释为driver API来自于物理机器的驱动版本，runtime API是来自于矩池云镜像环境内的CUDA Toolkit版本。

实时显示显存使用情况

nvidia-smi -l 5  #5秒刷新一次

动态刷新信息（默认5s刷新一次），按Ctrl+C停止，可指定刷新频率，以秒为单位

#每隔一秒刷新一次，刷新频率改中间数字即可

watch -n 1 -d nvidia-smi

在这里不建议使用watch查看nvidia-smi，watch每个时间周期开启一个进程(PID)，查看后关闭进程，可能会影响到其他进程。

矩池云上使用nvidia-smi命令教程的更多相关文章

矩池云上安装yolov5并测试教程
官方仓库:https://github.com/ultralytics/yolov5 官方文档:https://docs.ultralytics.com/quick-start/ 此案例我是租用了k8 ...
矩池云上安装及使用Milvus教程
选择cuda10.1的镜像更新源及拷贝文件到本地 apt-get update cp -r /public/database/milvus/ / cd /milvus/ cp ./lib/* /us ...
在矩池云上复现 CVPR 2018 LearningToCompare_FSL 环境
这是 CVPR 2018 的一篇少样本学习论文:Learning to Compare: Relation Network for Few-Shot Learning 源码地址:https://git ...
矩池云上安装ikatago及远程链接教程
https://github.com/kinfkong/ikatago-resources/tree/master/dockerfiles 从作者的库中可以看到,该程序支持cuda9.2.cuda10 ...
矩池云上编译安装dlib库
方法一(简单) 矩池云上的k80因为内存问题,请用其他版本的GPU去进行编译,保存环境后再在k80上用. 准备工作下载dlib的源文件进入python的官网,点击PyPi选项,搜索dilb,再点击 ...
如何在矩池云上运行FinRL-Libray股票交易策略框架
FinRL-Libray 项目:https://github.com/AI4Finance-LLC/FinRL-Library 选择FinRL镜像在矩池云-主机市场选择合适的机器,并选择FinRL- ...
矩池云上TensorBoard/TensorBoardX配置说明
Tensorflow用户使用TensorBoard 矩池云现在为带有Tensorflow的镜像默认开启了6006端口,那么只需要在租用后使用命令启动即可 tensorboard --logdir lo ...
矩池云上cifar10使用说明
矩池云将 keras 预训练模型保存目录为 /public/keras_pretrained_model/ 使用方法: 先执行命令,创建目录 mkdir -p ~/.keras/models/ 然后将 ...
矩池云上安装yolov4 darknet教程
这里我是用PyTorch 1.8.1来安装的拉取仓库官方仓库 git clone https://github.com/AlexeyAB/darknet 镜像仓库 git clone https: ...

随机推荐

SimpleDateFormat简介及替代方案
简介 SimpleDateFormat是一个时间格式化工具,可以将字符串格式化时间Date类型,也可以将Date类型格式化为字符串String类型,但其线程不安全. 常用方法 public final ...
为什么C语言Scanf函数对字符串不要加取地址运算符&
原文1:http://www.360doc.com/content/16/0515/11/19455598_559288667.shtml 原文2:https://zhidao.baidu.com/q ...
记项目中ES6+gulp+angularjs里的问题
AngualrJs中可用来注入的有三种类型,service.factory.provider,这三种写法不样,用法也都不一样.其中,service只实例化一次,其实就是单例模式的思想.无论我们在什么地 ...
JavaScript检查Date对象是否为Invalid Date
使用Date()构造日期对象,如果传入非日期格式的字符串,仍然能构造出Date对象. 在chrome控制台 >var date = new Date("hello"); &g ...
什么是Segue
Storyboard上每一根用来界面跳转的线,都是一个UIStoryboardSegue对象(简称Segue) Segue的属性每一个Segue对象,都有3个属性唯一标识@property (non ...
通过Python自带模块SimpleHTTPServer快速共享服务的配置文件
简介 SimpleHTTPServer是Python 2自带的一个模块,是Python的Web服务器,简单小巧,快速启动. 它在Python 3已经合并到http.server模块中. SimpleH ...
Python—字符串常用函数
Python-字符串常用字符串字符串是一种表示文本的数据类型,使用单引号和双引号及三引号表示访问字符串中的值字符串的每个字符都对应一个下标,下标编号是从0开始转义字符字符串的格式化输出切片常用函 ...
python语法_1基础语法概述
http://www.runoob.com/python3 章节:教程.基础语法.数据类型.解释器.注释.运算符. 大纲查看python版本实现第一个python3.x程序,hello world ...
7、Linux基础--权限、查看用户信息
笔记 1.晨考 1.Linux系统中的文件"身份证号"是什么 index node 号码 2.什么是硬链接,什么是软连接硬链接是文件的入口,软连接是快捷方式. 3.硬链接中保存的 ...
Process Doppelgänging
进程注入:Process Doppelgänging 攻击者可以通过Process Doppelgänging将恶意代码注入到进程中,从而逃避基于进程的防护,并且进行可能的特权提升.Process ...

矩池云上使用nvidia-smi命令教程

矩池云上使用nvidia-smi命令教程的更多相关文章

随机推荐

热门专题