pytorch学习笔记——训练时显存逐渐增加，几个epoch后out-of-memory

问题起因：笔者想把别人的torch的代码复制到笔者的代码框架下，从而引起的显存爆炸问题

该bug在困扰了笔者三天的情况下，和学长一同解决了该bug，故在此记录这次艰辛的debug之路。

尝试思路1：检查是否存在保留loss的情况下是否使用了 item() 取值，经检查，并没有

尝试思路2：按照网上的说法，添加两行下面的代码：

torch.backends.cudnn.enabled = True

torch.backends.cudnn.benchmark = True

实测发现并没有用。

尝试思路3：及时删除临时变量和清空显存的cache，例如每次训练一个batch就清除模型的输入输出。

del inputs,loss

gc.collect()

torch.cuda.empty_cache()

这样确实使得模型能够多训练几个epoch，但依旧没有解决显存持续增长的问题，而且由于频繁使用torch.cuda.empty_cache()，导致模型一个epoch的训练时长翻了3倍多。

尝试思路4：重新核对原模型代码，打印模型中所有parameters和register_buffer的require_grad，终于发现是因为模型中的某个register_buffer在训练过程中，它的require_grad本应该为False，然而迁移到我代码上的实际训练过程中变成了True，而这个buffer的占用数据空间也不大，可能是因为变为True之后，导致在显存中一直被保留，从而最终导致显存溢出。再将那个buffer在forward函数里的操作放在torch.no_grad()上下文中，问题解决！

总结：如果训练时显存占用持续增加，需要谨慎的检查forward函数中的操作，尤其是在编写复杂代码的时候，更需要更细致的检查！

pytorch学习笔记——训练时显存逐渐增加，几个epoch后out-of-memory的更多相关文章

Pytorch训练时显存分配过程探究
对于显存不充足的炼丹研究者来说,弄清楚Pytorch显存的分配机制是很有必要的.下面直接通过实验来推出Pytorch显存的分配过程. 实验实验代码如下: import torch from torch ...
深度学习中GPU和显存分析
刚入门深度学习时,没有显存的概念,后来在实验中才渐渐建立了这个意识. 下面这篇文章很好的对GPU和显存总结了一番,于是我转载了过来. 作者:陈云链接:https://zhuanlan.zhihu. ...
ref:学习笔记 UpdateXml() MYSQL显错注入
ref:https://www.cnblogs.com/MiWhite/p/6228491.html 学习笔记 UpdateXml() MYSQL显错注入在学习之前,需要先了解 UpdateXml( ...
matlab学习笔记7-定时器
一起来学matlab-matlab学习笔记7-定时器觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考书籍 <matlab 程序设计与综合应用>张德丰等著感谢张老师的书籍,让 ...
pytorch学习笔记（6）--神经网络非线性激活
如果神经元的输出是输入的线性函数,而线性函数之间的嵌套任然会得到线性函数.如果不加非线性函数处理,那么最终得到的仍然是线性函数.所以需要在神经网络中引入非线性激活函数. 常见的非线性激活函数主要包括S ...
[PyTorch 学习笔记] 1.1 PyTorch 简介与安装
PyTorch 的诞生 2017 年 1 月,FAIR(Facebook AI Research)发布了 PyTorch.PyTorch 是在 Torch 基础上用 python 语言重新打造的一款深 ...
[PyTorch 学习笔记] 3.1 模型创建步骤与 nn.Module
本章代码:https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson3/module_containers.py 这篇文章来看下 ...
[PyTorch 学习笔记] 4.3 优化器
本章代码: https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson4/optimizer_methods.py https: ...
[PyTorch 学习笔记] 6.2 Normalization
本章代码: https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson6/bn_and_initialize.py https: ...
[深度学习] pytorch学习笔记（4）(Module类、实现Flatten类、Module类作用、数据增强)
一.继承nn.Module类并自定义层我们要利用pytorch提供的很多便利的方法,则需要将很多自定义操作封装成nn.Module类. 首先,简单实现一个Mylinear类: from torch ...

随机推荐

Vs2022安装.Net4.5程序包
因为VS2022将不再支持.NET4.5,即使在Visual Studio Installer中也找不到.NET4.5的选项我们可以在NuGet包中下载.NET 4.5的工具包找到程序包管理器控制 ...
dotnet SemanticKernel 入门自定义变量和技能
本文将告诉大家如何在 SemanticKernel 框架内定义自定义的变量和如何开发自定义的技能本文属于 SemanticKernel 入门系列博客,更多博客内容请参阅我的博客导航自定义变量是一 ...
Graphviz入门
Graphviz可以用于状态机图的绘制要绘制一张状态图,我们需要两个图形元素结点,边结点和边都有自己的属性结点可以是圆.矩形.填充边有粗细
解决Nginx SSL 代理 Tomcat 获取 Scheme 总是 Http 问题
背景公司之前用的是http,但是出于苹果app审核和服务器安全性问题,要改为https,我们公司用的是沃通的ssl,按照沃通的官方文档提供的步骤完成服务器的配置. 架构上使用了 Nginx +tom ...
【解惑】时间规划，Linq的Aggregate函数在计算会议重叠时间中的应用
在繁忙的周五,小悦坐在会议室里,面前摆满了各种文件和会议安排表.她今天的工作任务是为公司安排下周的50个小会议,这让她感到有些头疼.但是,她深吸了一口气,决定耐心地一个一个去处理. 首先,小悦仔细地收 ...
基于react18+vite4+arco.design搭建极简版后台管理模板
趁着国庆前夕整了一个vite4结合react18搭建后台管理模板,搭配上字节团队react组件库ArcoDesign,整体操作功能非常丝滑.目前功能支持多种模板布局.暗黑/亮色模式.国际化.权限验证. ...
洛谷题解 | P1051 谁拿了最多奖学金
目录题目描述输入格式输出格式输入输出样例提示题目思路 AC代码题目描述某校的惯例是在每学期的期末考试之后发放奖学金.发放的奖学金共有五种,获取的条件各自不同: 1. 院士奖学金,每人 ...
在Docker下一键安装部署免费开源的问答社区！
在Docker下一键安装部署免费开源的问答社区! 1.准备一台VPS主机,没有的话,[搞一台] 2.一键安装部署Docker wget https://raw.githubusercontent. ...
scnhealthcheck
在CPU补丁中,Oracle提供了一个脚本 scnhealthcheck.sql 用于检查数据库当前SCN的剩余情况.该脚本的算法和以上描述相同,最终将最大合理SCN 减去当前数据库SCN,计算得出一 ...
DPDK丢包那些事
本文来自博客园,作者:T-BARBARIANS,博文严禁转载,转载必究! 一.前言 DPDK技术原理相关的文章不胜枚举,但从实战出发,针对DPDK丢包这一类问题进行系统分析的文章还是凤毛麟角. 刚好最 ...

pytorch学习笔记——训练时显存逐渐增加，几个epoch后out-of-memory

pytorch学习笔记——训练时显存逐渐增加，几个epoch后out-of-memory的更多相关文章

随机推荐

热门专题