Pytorch训练时显存分配过程探究

　　对于显存不充足的炼丹研究者来说，弄清楚Pytorch显存的分配机制是很有必要的。下面直接通过实验来推出Pytorch显存的分配过程。

　　实验实验代码如下：

import torch

from torch import cuda 

x = torch.zeros([3,1024,1024,256],requires_grad=True,device='cuda')

print("1", cuda.memory_allocated()/1024**2)

y = 5 * x

print("2", cuda.memory_allocated()/1024**2)

torch.mean(y).backward()

print("3", cuda.memory_allocated()/1024**2)

print(cuda.memory_summary())

　　输出如下：

　　代码首先分配3GB的显存创建变量x，然后计算y，再用y进行反向传播。可以看到，创建x后与计算y后分别占显存3GB与6GB，这是合理的。另外，后面通过backward()，计算出x.grad，占存与x一致，所以最终一共占有显存9GB，这也是合理的。但是，输出显示了显存的峰值为12GB，这多出的3GB是怎么来的呢？首先画出计算图：

　　下面通过列表的形式来模拟Pytorch在运算时分配显存的过程：

　　如上所示，由于需要保存反向传播以前所有前向传播的中间变量，所以有了12GB的峰值占存。

　　我们可以不存储计算图中的非叶子结点，达到节省显存的目的，即可以把上面的代码中的y=5*x与mean(y)写成一步：

import torch

from torch import cuda 

x = torch.zeros([3,1024,1024,256],requires_grad=True,device='cuda')

print("1", cuda.memory_allocated()/1024**2)

torch.mean(5*x).backward()

print("2", cuda.memory_allocated()/1024**2)

print(cuda.memory_summary())

　　占显存量减少了3GB：

Pytorch训练时显存分配过程探究的更多相关文章

[Pytorch]深度模型的显存计算以及优化
原文链接:https://oldpan.me/archives/how-to-calculate-gpu-memory 前言亲,显存炸了,你的显卡快冒烟了! torch.FatalError: cu ...
OpenGL8-直接分配显存-极速绘制（Opengl1.5版本才有)
视频教程请关注 http://edu.csdn.net/lecturer/lecturer_detail?lecturer_id=440 /** * 这个例子介绍如何使用显卡内存进行绘制下载地址 : ...
TensorFlow中的显存管理器——BFC Allocator
背景作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] 使用GPU训练时,一次训练任务无论是模型参数还是中间结果都需要占用大量显存.为了 ...
【原创】Linux环境下的图形系统和AMD R600显卡编程(4)——AMD显卡显存管理机制
显卡使用的内存分为两部分,一部分是显卡自带的显存称为VRAM内存,另外一部分是系统主存称为GTT内存(graphics translation table和后面的GART含义相同,都是指显卡的页表,G ...
Tensorflow与Keras自适应使用显存
Tensorflow支持基于cuda内核与cudnn的GPU加速,Keras出现较晚,为Tensorflow的高层框架,由于Keras使用的方便性与很好的延展性,之后更是作为Tensorflow的官方 ...
关于python中显存回收的问题
技术背景笔者在执行一个Jax的任务中,又发现了一个奇怪的问题,就是明明只分配了很小的矩阵空间,但是在多次的任务执行之后,显存突然就爆了.而且此时已经按照Jax的官方说明配置了XLA_PYTHON_C ...
（原）tensorflow中函数执行完毕，显存不自动释放
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/7608916.html 参考网址: https://stackoverflow.com/question ...
Pytorch显存动态分配规律探索
下面通过实验来探索Pytorch分配显存的方式. 实验显存到主存我使用VSCode的jupyter来进行实验,首先只导入pytorch,代码如下: import torch 打开任务管理器查看主存 ...
pytorch训练GAN时的detach()
我最近在学使用Pytorch写GAN代码,发现有些代码在训练部分细节有略微不同,其中有的人用到了detach()函数截断梯度流,有的人没用detch(),取而代之的是在损失函数在反向传播过程中将bac ...

随机推荐

MySQL架构(面)
和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用.主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离.这种架构可 ...
线程与更新UI，消除偏见，细谈原理
前言相信不少读者都阅读过相类似的文章了,但是我还是想完整的把这之间的关系梳理清楚,细节聊好,希望你也能从中学到一些. 进入正题,大家应该都听过这样一句话--"UI更新要在主线程,子线程更新 ...
linux定时任务（crontab和at）
查看定时任务:crontab -l [root@localhost test]# crontab -l no crontab for root 创建编辑定时任务:crontab -e [root@lo ...
du查看的目录大小与df查看的大小不同的时候用lsof查找
首先MAN一下两个命令,看一下解释的区别: du - estimate file space usage df - report file system disk space usage du估计文件 ...
[原题复现]SUCTF 2019 WEB EasySQL(堆叠注入)
简介原题复现: 1 <?php 2 session_start(); 3 4 include_once "config.php"; 5 6 $post = array() ...
掌握这些springboot的配置方式，让你工作效率翻个倍!
springboot的多种配置方式 java配置主要靠java类和一些注解,比较常用的注解有: @Configuration :声明一个类作为配置类,代替xml文件 @Bean :声明在方法上,将方法 ...
MathType如何打出带圆圈的点
学习了圆的知识后,知道可以用带圆圈的点表示圆,比如"⊙O"表示圆O,即圆心为O的圆.那么要怎么在MathType中打出带圆圈的点? 方法一.直接在工具栏上选择输入打开MathTy ...
Centos7安装Nginx详细步骤
前言 Nginx 是一款轻量级的Web 服务器 .反向代理服务器及电子邮件(IMAP/POP3)代理服务器. 常用用途: ✓ 1. 反向代理 ✓ 2. 正向代理这里我给来2张图,对正向代理与反响代理 ...
C语言讲义——dll调用
DLL:Dynamic Link Library,动态链接库.一个应用程序可使用多个DLL文件,一个DLL文件也可以被不同的应用程序使用. 先新建一个dll项目再创建C项目进行调用 #include ...
Eclipse中自动生成局部变量
方法调用后,返回值自动赋值到一个新的局部变量中: (1)鼠标放到方法上,点击Ctrl+1 (2)选择 :Assign statement to new local variable(将语句赋给新的局部 ...

Pytorch训练时显存分配过程探究

Pytorch训练时显存分配过程探究的更多相关文章

随机推荐

热门专题