pytorch bug: for step,data in enumerate(loader)+Connection reset by peer

单GPU跑的程序，而且是在docker中，迭代了几百步后，程序突然崩掉了，

程序停在了 for step,data in enumerate(loader)，下面是部分bug信息

Traceback (most recent call last):

........

  File ".../torch/utils/data/dataloader.py", line 206, in __next__

    idx, batch = self.data_queue.get()

  File "/usr/lib/python2.7/multiprocessing/queues.py", line 378, in get

    return recv()

  File ".../torch/multiprocessing/queue.py", line 22, in recv

    return pickle.loads(buf)

  File "/usr/lib/python2.7/pickle.py", line 1388, in loads

    return Unpickler(file).load()

  File "/usr/lib/python2.7/pickle.py", line 864, in load

    dispatch[key](self)

  File "/usr/lib/python2.7/pickle.py", line 1139, in load_reduce

    value = func(*args)

  File ".../torch/multiprocessing/reductions.py", line 68, in rebuild_storage_fd

    fd = multiprocessing.reduction.rebuild_handle(df)

  File "/usr/lib/python2.7/multiprocessing/reduction.py", line 155, in rebuild_handle

    conn = Client(address, authkey=current_process().authkey)

  File "/usr/lib/python2.7/multiprocessing/connection.py", line 175, in Client

    answer_challenge(c, authkey)

  File "/usr/lib/python2.7/multiprocessing/connection.py", line 432, in answer_challenge

    message = connection.recv_bytes(256)         # reject large message

IOError: [Errno 104] Connection reset by peer

我以为是enumerate的问题，出现了脏数据，但细想不可能啊，都迭代了一个epoch了，

查看资料，追踪这个error，Connection reset by peer，网上说是https://github.com/pytorch/pytorch/issues/9127，

以前版本有bug，需要将新版本的 torch/_six.py and torch/utils/data/dataloader.py 替换以前的版本，

工作量大，被这个思路带着走，完全跑偏了。放弃了，

查询DataLoader的参数，有建议把batch_size调小，调到了1，

num_workers值也调到了1，还是报错，

DataLoader的函数定义如下：

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
num_workers=0, collate_fn=default_collate, pin_memory=False,
drop_last=False)

1. dataset：加载的数据集
2. batch_size：batch size
3. shuffle:：是否将数据打乱
4. sampler：样本抽样
5. num_workers：使用多进程加载的进程数，0代表不使用多进程
6. collate_fn：如何将多个样本数据拼接成一个batch，一般使用默认的拼接方式即可
7. pin_memory：是否将数据保存在pin memory区，pin memory中的数据转到GPU会快一些
8. drop_last：dataset中的数据个数可能不是batch_size的整数倍，drop_last为True会将多出来不足一个batch的数据丢弃

于是将num_workers参数值改成了默认值 0，不用多进程跑，程序可以运行了，激动万分，感激涕零啊

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer的更多相关文章

OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解（转）
cv::Matdepth/dims/channels/step/data/elemSizeThe class Mat represents an n-dimensional dense numeric ...
OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解
原文:OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解 Title : cv::Mat depth/dims/channels ...
HttpClient exception:ExceptionType:System.Threading.Tasks.TaskCanceledException: The operation was canceled. ---> System.IO.IOException: Unable to read data from the transport connection: Operation ca
error msg: System.Threading.Tasks.TaskCanceledException: The operation was canceled. ---> System. ...
Database mirroring connection error 4 'An error occurred while receiving data: '10054(An existing connection was forcibly closed by the remote host.)
公司一SQL Server镜像发生了故障转移(主备切换),检查SQL Server镜像发生主备切换的原因,在错误日志中发现下面错误: Date 2019/8/31 14:09:17 ...
【pytorch】torch.utils.data.DataLoader
简介 DataLoader是PyTorch中的一种数据类型.用于训练/验证/测试时的数据按批读取. torch.utils.data.DataLoader(dataset, batch_size=1, ...
pytorch .detach() .detach_() 和 .data用于切断反向传播
参考:https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-autograd/#detachsource 当我们再训 ...
pytorch的torch.utils.data.DataLoader认识
PyTorch中数据读取的一个重要接口是torch.utils.data.DataLoader,该接口定义在dataloader.py脚本中,只要是用PyTorch来训练模型基本都会用到该接口, 该接 ...
ssd训练之bug:Invalid JPEG data or crop window, data size 565248
bug信息 tensorflow.python.framework.errors_impl.InvalidArgumentError: Invalid JPEG data or crop window ...
pytorch bug
ImportError: torch.utils.ffi is deprecated raise ImportError("torch.utils.ffi is deprecated. Pl ...

随机推荐

一、PyQt5基础概念与安装配置
一.初识PyQt5 对于桌面程序开发,用户图形界面(GUI)的设计非常重要.一款美观.易用的用户界面可以很大程度上提高对使用这的友好度.由于Python最初是作为脚本语言开发,并没有GUI功能.但Py ...
Mac 安装配置Jenkins+github完成项目构建
Jenkins Jenkins是一款开源 CI&CD 软件,用于自动化各种任务,包括构建.测试和部署软件.Jenkins 支持各种运行方式,可通过系统包, Docker 或者通过一个独立的 J ...
Finish final project
一.项目地址:https://github.com/Joyce45/final-project 二.团队成员陈述: 于浩: 张雨: 遇到的问题:1.通过relativepanel解决了刚开始设计上使用 ...
织梦dedecms后台文章搜索关键字，关键字包含文章内容的代码修改
1.织梦dedecms后台文章搜索功能在哪里找?织梦dedecms后台-->核心-->常用操作-->所有档案列表(或)织梦dedecms后台-->核心-->内容管理--& ...
Libgdx slg游戏进程记录
2月16日缩放居中,stage确定点击坐标,背景处理为actor 2月17日地图多次点击 2月19日stage确定点击位置(贝塞尔曲线六边形) 2月24日格式长度,读取xml属性解析btl保存 3月1 ...
82、iOS 基本算法
“冒泡排序.选择排序.快速排序.归并排序.逆序.二分查找.求两个整数的最大公约数和最小公倍数.” 一.冒泡排序 1.比较相邻的元素.如果第一个比第二个大,就交换他们两个. 2.对每一对相邻元素作同样的 ...
SpringMVC对静态资源的访问（js、css、img）
在网上找了很多的内容,都没法解决,最后通过https://blog.csdn.net/wild46cat/article/details/52456715中内容解决的,在此记录一下. 项目结构: po ...
在Linux下部署mysql时，使用group by碰到的问题
mysql使用group by 的时候报错,错误信息如下: 1055:ER_WRONG_FIELD_WITH_GROUP: Expression #2 of SELECT list is not in ...
(25)Teach girls bravery, not perfection
https://www.ted.com/talks/reshma_saujani_teach_girls_bravery_not_perfection/transcript00:12So a few ...
C++枚举类型Enum及C++11强枚举类型用法
C++中的枚举类型常常和switch配合使用,这里用一个简单的switch控制键盘回调的代码片段来说明枚举的用法: //W A S D 前.后.左.右行走 enum Keydown{ Forward= ...

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer的更多相关文章

随机推荐

热门专题