Ubuntu 进程kill后不释放显存

2024-09-03

ubuntu服务器常见使用技巧及-kill掉后GPU显存不释放进程-

如何解决python进程被kill掉后GPU显存不释放的问题 1 重新开一个shell,然后输入: ps aux|grep user_name|grep python.所有该用户下的python程序就会显示出来(很多在用watch命令都不会显示的进程在这里可以看到): 2 然后再一个个用kill命令清理两台Linux系统之间传输文件的几种方法连接服务器shell窗口关闭导致程序中断,让程序在linux后台运行nohup - CUDA_VISIBLE_DEVICES=1 nohup pytho

pytorch GPU的程序kill后未释放内存

使用PyTorch设置多线程(threads)进行数据读取(DataLoader),其实是假的多线程,他是开了N个子进程(PID都连着)进行模拟多线程工作,所以你的程序跑完或者中途kill掉主进程的话,子进程的GPU显存并不会被释放,需要手动一个一个kill才行,具体方法描述如下: 1.先关闭ssh(或者shell)窗口,退出重新登录 2.查看运行在gpu上的所有程序: fuser -v /dev/nvidia* 3.kill掉所有(连号的)僵尸进程 https://blog.csdn.net/

（原）tensorflow中函数执行完毕，显存不自动释放

转载请注明出处: http://www.cnblogs.com/darkknightzh/p/7608916.html 参考网址: https://stackoverflow.com/questions/39758094/clearing-tensorflow-gpu-memory-after-model-execution https://github.com/tensorflow/tensorflow/issues/1727#issuecomment-285815312s tensorflo

关于python中显存回收的问题

技术背景笔者在执行一个Jax的任务中,又发现了一个奇怪的问题,就是明明只分配了很小的矩阵空间,但是在多次的任务执行之后,显存突然就爆了.而且此时已经按照Jax的官方说明配置了XLA_PYTHON_CLIENT_PREALLOCATE这个参数为false,也就是不进行显存的预分配(默认会分配90%的显存空间以供使用).然后在网上找到了一些类似的问题,比如参考链接中的1.2.3.4,都是在一些操作后发现未释放显存,这里提供一个实例问题和处理的思路,如果有更好的方案欢迎大家在评论区留言. 问题复现

CUDA 显存操作：CUDA支持的C++11

CUDA9的编译器和语言改进使用CUDA 9,nvcc编译器增加了对C ++ 14的支持,其中包括新功能通用的lambda表达式,其中使用auto关键字代替参数类型; auto lambda = [](auto a,auto b){return a * b;}; 功能的返回类型扣除(使用auto关键字作为返回类型,如上例所示) 对constexpr函数可以包含的更少的限制,包括变量声明,if,switch和循环. CUDA 9中的NVCC也更快,与CUDA 8相比,编译时间平均减少了20%,

Pytorch显存动态分配规律探索

下面通过实验来探索Pytorch分配显存的方式. 实验显存到主存我使用VSCode的jupyter来进行实验,首先只导入pytorch,代码如下: import torch 打开任务管理器查看主存与显存情况.情况分别如下: 在显存中创建1GB的张量,赋值给a,代码如下: a = torch.zeros([256,1024,1024],device= 'cpu') 查看主存与显存情况: 可以看到主存与显存都变大了,而且显存不止变大了1G,多出来的内存是pytorch运行所需的一些配置变量,我们

Pytorch训练时显存分配过程探究

对于显存不充足的炼丹研究者来说,弄清楚Pytorch显存的分配机制是很有必要的.下面直接通过实验来推出Pytorch显存的分配过程. 实验实验代码如下: import torch from torch import cuda x = torch.zeros([3,1024,1024,256],requires_grad=True,device='cuda') print("1", cuda.memory_allocated()/1024**2) y = 5 * x print(&quo

Ubuntu-Tensorflow 程序结束掉GPU显存没有释放的问题

笔者在ubuntu上跑Tensorflow的程序的时候,中途使用了Win+C键结束了程序的进行,但是GPU的显存却显示没有释放,一直处于被占用状态. 使用命令 nvidia-smi 显示如下两个GPU程序都在执行中,实际上GPU:0已经被笔者停止了,但是GPU没有释放,进程还在继续,所以只有采用暴力手段了,将进程手动关闭掉,进程编号如图中红线部分,由于笔者在两个GPU跑的程序一样,很难从程序名称上找到自己,却可以从GPU:num上找到自己的PID. 关闭命令如下: sudo kill -9 P

解决GPU显存未释放问题

前言今早我想用多块GPU测试模型,于是就用了PyTorch里的torch.nn.parallel.DistributedDataParallel来支持用多块GPU的同时使用(下面简称其为Dist). 程序运行时,由于程序中其他部分的代码(与Dist无关的代码)出现了错误,导致程序退出.这次使用Dist时没有考虑和处理这种程序崩溃的情况,因此在程序退出前没有用Dist关闭生成的所有进程,最终导致本次进程运行后GPU显存未释放(经观察,发现是由于没有用Dist关闭所有进程,导致程序运行后还有一部分

Linux显存占用无进程清理方法（附批量清理命令）

在跑TensorFlow.pytorch之类的需要CUDA的程序时,强行Kill掉进程后发现显存仍然占用,这时候可以使用如下命令查看到top或者ps中看不到的进程,之后再kill掉: fuser -v /dev/nvidia* 批量清理显卡中残留进程: sudo fuser -v /dev/nvidia* |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sudo sh

解决矩池云GPU显存未释放问题

很多用户反馈说终止程序之后,显存依然被占用,这里我们提供了两种解决方案,帮助用户解决这个问题. nvidia-smi查看我们可以先用如下命令 nvidia-smi 查看一下当前GPU进程情况. _ GPU:GPU 编号: Name:GPU 型号: Persistence-M:持续模式的状态.持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态: Fan:风扇转速,从0到100%之间变动: Temp:温度,单位是摄氏度: Perf:性能状态,从P0到P12,P

GPU 显存释放

我们在使用tensorflow 的时候, 有时候会在控制台终止掉正在运行的程序,但是有时候程序已经结束了,nvidia-smi也看到没有程序了,但是GPU的内存并没有释放,那么怎么解决该问题呢? 首先执行下面的命令: fuser -v /dev/nvidia* #查找占用GPU资源的PID 因为我们只有一块显卡,所以显示如下图所示: 可以看到我们的nvidia0上还有一个python 2.7的PID 然后我们执行: kill -9 pid 然后再执行nvidia-smi就可以看到内存已经被释放

[Erlang10]为什么热更新时，Shell执行2次l(Module)后会把原来用到Module的进程 kill？

0. 问题引入: -module(hot_code_server). -compile(export_all). start() –> erlang:register(?MODULE, erlang:spawn_link(fun() –> loop() end)). loop() –> receive stop –> io:format("stop~n"); Msg –> io:format("Recv:~p~n",[Msg]), lo

查找和杀掉占用GPU显存的进程

用只有2个G的显卡跑数据就需要在训练之前先把无关进程杀掉,防止跑到一半显存满了 nvidia-smi:显示当前GPU中的线程 kill -9 PID:输入PID以结束线程

关于进程exit后，内存释放释放的实践

最近碰到一个问题,或许也是小猿们都会碰到的问题:内存泄露. 都知道malloc后需要free才能释放内存,shmat后需要shmdt才能断掉内存区并使用IPC_RMID命令删除共享内存.那么如果是当前进程exit后,这些东西还需要收到清理吗?进程退出会清理除打开的文件描述符外,还做些什么呢? 代码: 思路:在进程中申请内存空间不释放,进程退出,查看当期是否有内存释放 #include <stdio.h> #include <stdlib.h> #include <string

Ubuntu强制重启后提示emergency mode

起因 win10+Ubuntu16.04双系统,在ubuntu下训练一个卷积网但是显存拙计卡死了,于是手贱强制按下电源开关重启. 现象重启后从grub进ubuntu,并不进图形化的登录界面,而是提示"/dev/sdb7 .... clean ..."(第一行), "Welcome to emergency mode!"(第二行),以及后续若干行解决方法网上的解决方法有: 把win10快速启动关掉(我一直关着的,显然不是这个问题) 编辑fstab删掉NTFS分区

linux 杀死进程kill 等用法

kill -9 $(ps -ef | grep process_name | grep -v grep | awk '{print $2}') 稍微解释一下: awk '{print $2}' 打印出第二行内容,如果想显示第一行内容就用$1就可以了. grep -v grep 去掉包含grep字样的所有行记录 ps -ef | grep process_name 显示出所有包含process_name字样的行记录,process_name就是你想要找的进程名字或者其他脚本名字

【原创】Linux环境下的图形系统和AMD R600显卡编程(4)——AMD显卡显存管理机制

显卡使用的内存分为两部分,一部分是显卡自带的显存称为VRAM内存,另外一部分是系统主存称为GTT内存(graphics translation table和后面的GART含义相同,都是指显卡的页表,GTT 内存可以就理解为需要建立GPU页表的显存).在嵌入式系统或者集成显卡上,显卡通常是不自带显存的,而是完全使用系统内存.通常显卡上的显存访存速度数倍于系统内存,因而许多数据如果是放在显卡自带显存上,其速度将明显高于使用系统内存的情况(比如纹理,OpenGL中分普通纹理和常驻纹理). 某些内容是必

Linux进程KILL不掉的原因

做过Linux开发的人通常遇到过一个进程不能kill掉的情况,即使使用的是kill -9方式,而一般的教课书都只说kill -9能杀死任何进程,遇到这种情况时就会感觉到很矛盾,其它这也是正常的,通常有两种情况是不能kill掉的: 一是进程已经成为僵死进程,当它的父进程将它回收或将它的父进程kill掉即可在ps输出看不到了: 二是进程正处在内核状态中,Linux进程运行时分内核和用户两种状态,当进程进入内核状态后,会屏蔽所有信号,包括SIGKIL,所以这个时候kill -9也变得无效了. 阅读

Centos杀死进程kill方法大全

杀死进程最安全的方法是单纯使用kill命令. 首先使用ps -ef命令确定要杀死进程的PID,然后输入以下命令: # kill -pid 注释:标准的kill命令通常都能达到目的.终止有问题的进程,并把进程的资源释放给系统.然而,如果进程启动了子进程,只杀死父进程,子进程仍在运行,因此仍消耗资源. 为了防止这些所谓的“僵尸进程”,应确保在杀死父进程之前,先杀死其所有的子进程. *确定要杀死进程的PID或PPID # ps -ef | grep httpd *以优雅的方式结束进程 # kill -

Ubuntu 进程kill后不释放显存

热门专题