前言

今早我想用多块GPU测试模型，于是就用了PyTorch里的torch.nn.parallel.DistributedDataParallel来支持用多块GPU的同时使用（下面简称其为Dist）。

程序运行时，由于程序中其他部分的代码（与Dist无关的代码）出现了错误，导致程序退出。这次使用Dist时没有考虑和处理这种程序崩溃的情况，因此在程序退出前没有用Dist关闭生成的所有进程，最终导致本次进程运行后GPU显存未释放（经观察，发现是由于没有用Dist关闭所有进程，导致程序运行后还有一部分进程在运行）。

下面介绍这次我解决该问题的过程。

正文

MVE

Minimal Verifiable Examples，关于本问题的程序代码如下：

import torch.distributed as dist

# 一些代码：定义model等

some code

# 初始化并行训练

dist.init_process_group(xxxx)  # 函数参数省略

model = torch.nn.parallel.DistributedDataParallel(model, find_unused_parameters=True)

# 一些代码：训练、测试模型等

some code  # 我的程序在这个部分出错且程序直接退出，导致下面的关闭进程的代码没有运行

# 关闭所有进程

dist.destroy_process_group()

问题的出现

如下图所示，程序退出后，并没有进程在使用0号GPU，但0号GPU的显存却被占用。原因是程序退出前没有用Dist关闭所有进程，一部分进程还在运行，这些进程占用0号GPU的显存。

占用7号GPU的进程是我的另外一个进程，与本文讨论的问题无关。

定位占用GPU显存的PID

执行下面的指令

fuser -v /dev/nvidia*

该命令执行后得到下图所示的结果，可以看到是PID为285448的进程占用了0号GPU。

下面的图中忘记打了马赛克，后来用黑色遮挡了一下信息，所以USER这一列是看起来是空的。

执行下面这条命令，查看该进程的信息，可以发现该进程的PPID（其父进程的PID）是1，说明该进程不是我占用7号GPU的进程生成的，并且现在只有它在使用0号GPU。可以推断出这个进程是因为程序运行错误导致其没有被关闭，因此可以手动关闭该进程。

ps -f -p 285448

下面的图中忘记打了马赛克，后来用黑色遮挡了一下信息，所以图中的路径不是很清晰。

先后执行下面这两条命令，杀掉该进程，再查看GPU情况，可以看到0号GPU的显存已经被释放，现在的GPU显存占用情况是正常的。

kill -9 2885448

nvidia-smi

作者：@臭咸鱼

转载请注明出处：https://www.cnblogs.com/chouxianyu/

欢迎讨论和交流!

解决GPU显存未释放问题的更多相关文章

解决矩池云GPU显存未释放问题
很多用户反馈说终止程序之后,显存依然被占用,这里我们提供了两种解决方案,帮助用户解决这个问题. nvidia-smi查看我们可以先用如下命令 nvidia-smi 查看一下当前GPU进程情况. _ ...
ubuntu服务器常见使用技巧及-kill掉后GPU显存不释放进程-
如何解决python进程被kill掉后GPU显存不释放的问题 1 重新开一个shell,然后输入: ps aux|grep user_name|grep python.所有该用户下的python程序就 ...
Ubuntu-Tensorflow 程序结束掉GPU显存没有释放的问题
笔者在ubuntu上跑Tensorflow的程序的时候,中途使用了Win+C键结束了程序的进行,但是GPU的显存却显示没有释放,一直处于被占用状态. 使用命令 nvidia-smi 显示如下两个GP ...
GPU 显存释放
我们在使用tensorflow 的时候, 有时候会在控制台终止掉正在运行的程序,但是有时候程序已经结束了,nvidia-smi也看到没有程序了,但是GPU的内存并没有释放,那么怎么解决该问题呢? 首先 ...
（原）tensorflow中使用指定的GPU及GPU显存
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6591923.html 参考网址: http://stackoverflow.com/questions ...
tensorflow中使用指定的GPU及GPU显存
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本文目录 1 终端执行程序时设置使用的GPU 2 python代码中设置使用的GPU 3 设置tensorflow使用的显 ...
gpu显存（全局内存）在使用时数据对齐的问题
全局存储器,即普通的显存,整个网格中的随意线程都能读写全局存储器的任何位置. 存取延时为400-600 clock cycles 很easy成为性能瓶颈. 訪问显存时,读取和存储必须对齐,宽度为4B ...
查找和杀掉占用GPU显存的进程
用只有2个G的显卡跑数据就需要在训练之前先把无关进程杀掉,防止跑到一半显存满了 nvidia-smi:显示当前GPU中的线程 kill -9 PID:输入PID以结束线程
GPU显存释放
一.当程序没有运行,但GPU仍被占用, 可通过nvidia-smi查看,被占用的pid是什么或通过sudo fuser -v /dev/nvidia* #查找占用GPU资源的PID 然后采用kill ...

随机推荐

Spring Boot 2.x基础教程：使用MyBatis访问MySQL
之前我们已经介绍了两种在Spring Boot中访问关系型数据库的方式: 使用spring-boot-starter-jdbc 使用spring-boot-starter-data-jpa 虽然Spr ...
利用机器学习检测HTTP恶意外连流量
本文通过使用机器学习算法来检测HTTP的恶意外连流量,算法通过学习恶意样本间的相似性将各个恶意家族的恶意流量聚类为不同的模板.并可以通过模板发现未知的恶意流量.实验显示算法有较好的检测率和泛化能力. ...
py基础之无序列表
'''dic是一个可以将两个相关变量关联起来的集合,格式是dd={key1:value1,key2:value2,key3:value3}'''d = { 'adam':95, 'lisa':85, ...
Android html5 控制video currentTime不准确,精确,解决办法。
早在flash时代我们控制视频播放指定时间位置的画面也会有不准确的情况, 具体情况表现为:video.seek(time) 而实际画面会跳到此时间附近(1-2秒)的画面而HTML5 我们通过 ...
JavaScript面向对象class
JavaScript面向对象class 本周逆战班学习的主题是“面向对象”,很多人觉得面向对象很难理解,但其实我们早就在面向对象的思想之中了,今天就让我们再重新认识一下他,主要介绍一下ES6中新增的c ...
sass片段
变量: $color: #333; body { color: $color;} -----> body { color: #333; } 嵌套: nav { ul { margin: 0; } ...
2020年ubuntu sever1804 安装和配置
最后一次折腾linux服务器,应该是13的我的VPS.因为转行后,没有及时关注vps续费的问题,结果过期,所有的数据丢失了当时觉得,反正都不做了,丢了就丢了吧,可现在想起来,实在是太后悔了. 今天, ...
Canny检测算法与实现
1.原理图象边缘就是图像颜色快速变化的位置,对于灰度图像来说,也就是灰度值有明显变化的位置.图像边缘信息主要集中在高频段,图像锐化或检测边缘实质就是高通滤波.数值微分可以求变化率,在图像上离散值求梯 ...
基于osg的python三维程序开发（二）------向量
上一篇文章展示了如何简单创建一个osg python 程序, 本篇展示了了一些基础数据结构的使用: from pyosg import * vec = osg.Vec3Array() #push ba ...
POJ 1065 & ZOJ 1025
#include <cstdio> #include <iostream> #include <algorithm> #include <cstring> ...

解决GPU显存未释放问题

前言

正文

MVE

问题的出现

定位占用GPU显存的PID

解决GPU显存未释放问题的更多相关文章

随机推荐

热门专题