【转载】 pytorch锁死在dataloader（训练时卡死）

版权声明：本文为CSDN博主「Totoro-wen」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_32526087/article/details/106350530

=================================================

1.问题描述

2.解决方案

（1）Dataloader里面不用cv2.imread进行读取图片，用cv2.imread还会带来一系列的不方便，比如不能结合torchvision进行数据增强，所以最好用PIL 里面的Image.open来读图片。（并不适用本例）
（2）将DataLoader 里面的参变量num_workers设置为0，但会导致数据的读取很慢，拖慢整个模型的训练。（并不适用本例）
（3）如果用了cv2.imread，不想改代码的，那就加两条语句，来关闭Opencv的多线程：cv2.setNumThreads(0)和cv2.ocl.setUseOpenCL(False)。加了这两条语句之后，并不影响模型的训练。（并不适用本例）
（4）这种情况应该是属于pytorch多线程锁死，在github上看到有该问题，但是没有解决的。

参考建议
首先确保num_works数量低于CPU数量(如果使用Kubernetes，则设置为pod)，但是设置得足够高，使数据随时可以用于下一次迭代。如果GPU在t秒内运行每个迭代，而每个dataloader worker加载/处理单个批处理需要N*t秒，那么您应该将num_workers设置为至少N，以避免GPU停滞。当然，系统中至少要有N个cpu。

不幸的是，如果Dataloader使用任何使用K个线程的库，那么生成的进程数量就会变成num_workersK = NK。这可能比计算机中的cpu数量大得多。这会使pod节流，而Dataloader会变得非常慢。这可能导致Dataloader不返回批处理每t秒，导致GPU暂停。

避免K个线程的一种方法是通过OMP_NUM_THREADS=1 MKL_NUM_THREADS=1 python train.py调用主脚本。这就限制了每个Dataloader工作程序只能使用一个线程，从而避免了使机器不堪重负。你仍然需要有足够的num_workers来满足GPU的需要。

您还应该在_get_item__中优化您的代码，以便每个worker在较短的时间内完成其批处理。请确保worker完成批处理的时间不受从磁盘读取训练数据的时间(特别是当您从网络存储中读取数据时)或网络带宽(当您从网络磁盘读取数据时)的影响。如果您的数据集很小，并且您有足够的RAM，那么可以考虑将数据集移动到RAM(或/tmpfs)中，并从那里读取数据以进行快速访问。对于Kubernetes，您可以创建一个RAM磁盘(在Kubernetes中搜索emptyDir)。

如果你已经优化了你的_get_item__代码，并确保磁盘访问/网络访问不是罪魁祸首，但仍然会出现问题，你将需要请求更多的cpu(为了一个Kubernetes pod)，或者将你的GPU移动到拥有更多cpu的机器上。

另一个选项是减少batch_size，这样每个worker要做的工作就会减少，并且可以更快地完成预处理。后一种选择在某些情况下是不可取的，因为会有空闲的GPU内存不被利用。

你也可以考虑离线做一些预处理，减轻每个worker的负担。例如，如果每个worker正在读取一个wav文件并计算音频文件的谱图，那么可以考虑离线预先计算谱图，只从工作者的磁盘中读取计算的谱图。这将减少每个worker的工作量。
你也可以考虑将dataloader里的设置pin_memory=False。
上述的方法来自here

————————————————

【转载】 pytorch锁死在dataloader（训练时卡死）的更多相关文章

Pytorch中多GPU训练指北
前言在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情.Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用P ...
pytorch：EDSR 生成训练数据的方法
Pytorch:EDSR 生成训练数据的方法引言 Winter is coming 正文 pytorch提供的DataLoader 是用来包装你的数据的工具. 所以你要将自己的 (numpy arr ...
DenseNet算法详解——思路就是highway，DneseNet在训练时十分消耗内存
论文笔记:Densely Connected Convolutional Networks(DenseNet模型详解) 2017年09月28日 11:58:49 阅读数:1814 [ 转载自http: ...
[转载]Pytorch详解NLLLoss和CrossEntropyLoss
[转载]Pytorch详解NLLLoss和CrossEntropyLoss 来源:https://blog.csdn.net/qq_22210253/article/details/85229988 ...
PyTorch ImageNet 基于预训练六大常用图片分类模型的实战
微调 Torchvision 模型在本教程中,我们将深入探讨如何对 torchvision 模型进行微调和特征提取,所有这些模型都已经预先在1000类的Imagenet数据集上训练完成.本教程将深入 ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
MINIST深度学习识别：python全连接神经网络和pytorch LeNet CNN网络训练实现及比较（三）
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前两篇文章MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网 ...
[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路
[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路目录 [源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路 0x00 摘要 0x01 痛点 0x02 难点 0 ...
[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程
[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程目录 [源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程 0x00 摘要 0x01 ...
[源码解析] PyTorch 分布式之弹性训练(3)---代理
[源码解析] PyTorch 分布式之弹性训练(3)---代理目录 [源码解析] PyTorch 分布式之弹性训练(3)---代理 0x00 摘要 0x01 总体背景 1.1 功能分离 1.2 Re ...

随机推荐

ssh进阶
1.ssh客户端工具查看参数和帮助方法 ==ssh --help== ==man ssh== 常见参数 windows linux macos 提供的ssh命令,会有些区别,查看帮助后使用即可. l ...
app备案
最近app要求备案,使用阿里云备案安卓可以上传apk获取信息,那么ios怎么弄呢 https://zhuanlan.zhihu.com/p/660738854?utm_id=0 查看的时候需要使用m ...
OB_MYSQL UPDATE 优化案例
在工单系统上看到有一条SQL问题还没解决,直接联系这位同学看看是否需要帮忙. 慢SQL: UPDATE A SET CORPORATION_NAME = ( SELECT DISTINCT CORPO ...
MestReNova14.0中文版安装教程
MestReNova 14是一款专业级的核磁共振(NMR)与质谱(MS)数据分析软件,专注于化合物结构解析和验证.该软件以卓越的谱图处理能力和智能化算法为核心,提供自定义参数调整.自动峰识别.精准积分 ...
上交大开源镜像站下架 Docker Hub 镜像
在现代软件开发中,Docker镜像已经成为不可或缺的工具.然而,最近频频出现的Docker镜像下架事件让许多开发者措手不及.突然失去依赖的镜像,不仅打乱了项目进程,还引发了许多不便.那么,面对Do ...
国产自主架构！龙芯2K1000LA工业核心板正式发布！
国产自主架构!龙芯2K1000LA工业核心板正式发布! 原创 Tronlong创龙科技 Tronlong创龙科技 2024-06-13 07:50 广东 Tronlong创龙科技 ,赞18 (点击视频 ...
PromQL全方位解读：监控与性能分析的关键技术
本文全面探索PromQL,从基础语法到高级操作,详细介绍了数据聚合.时间序列分析及内置函数应用,旨在提升用户构建复杂监控策略和性能分析的能力. 关注[TechLeadCloud],分享互联网架构.云服 ...
Java基础：线程的三种创建方式
一.继承Thread类定义一个类继承线程类Thread 重写run()方法创建线程对象调用线程对象的start()方法创建线程 Thread类的常用API setName(String name ...
.Net Core WebApi 使用 JWT 验证身份
.h2 { background-color: rgba(78, 110, 242, 1); color: rgba(255, 255, 255, 1); padding: 10px } 一.注册身份 ...
解决方案 | 外接键盘win+d失效，绿联键盘win+d，win+e失效
按下fn + 右边的win键即可解决.如下图所示.

【转载】 pytorch锁死在dataloader（训练时卡死）

【转载】 pytorch锁死在dataloader（训练时卡死）的更多相关文章

随机推荐

热门专题