pytorch bug: for step,data in enumerate(loader)+Connection reset by peer

单GPU跑的程序，而且是在docker中，迭代了几百步后，程序突然崩掉了，

程序停在了 for step,data in enumerate(loader)，下面是部分bug信息

Traceback (most recent call last):

........

  File ".../torch/utils/data/dataloader.py", line 206, in __next__

    idx, batch = self.data_queue.get()

  File "/usr/lib/python2.7/multiprocessing/queues.py", line 378, in get

    return recv()

  File ".../torch/multiprocessing/queue.py", line 22, in recv

    return pickle.loads(buf)

  File "/usr/lib/python2.7/pickle.py", line 1388, in loads

    return Unpickler(file).load()

  File "/usr/lib/python2.7/pickle.py", line 864, in load

    dispatch[key](self)

  File "/usr/lib/python2.7/pickle.py", line 1139, in load_reduce

    value = func(*args)

  File ".../torch/multiprocessing/reductions.py", line 68, in rebuild_storage_fd

    fd = multiprocessing.reduction.rebuild_handle(df)

  File "/usr/lib/python2.7/multiprocessing/reduction.py", line 155, in rebuild_handle

    conn = Client(address, authkey=current_process().authkey)

  File "/usr/lib/python2.7/multiprocessing/connection.py", line 175, in Client

    answer_challenge(c, authkey)

  File "/usr/lib/python2.7/multiprocessing/connection.py", line 432, in answer_challenge

    message = connection.recv_bytes(256)         # reject large message

IOError: [Errno 104] Connection reset by peer

我以为是enumerate的问题，出现了脏数据，但细想不可能啊，都迭代了一个epoch了，

查看资料，追踪这个error，Connection reset by peer，网上说是https://github.com/pytorch/pytorch/issues/9127，

以前版本有bug，需要将新版本的 torch/_six.py and torch/utils/data/dataloader.py 替换以前的版本，

工作量大，被这个思路带着走，完全跑偏了。放弃了，

查询DataLoader的参数，有建议把batch_size调小，调到了1，

num_workers值也调到了1，还是报错，

DataLoader的函数定义如下：

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
num_workers=0, collate_fn=default_collate, pin_memory=False,
drop_last=False)

1. dataset：加载的数据集
2. batch_size：batch size
3. shuffle:：是否将数据打乱
4. sampler：样本抽样
5. num_workers：使用多进程加载的进程数，0代表不使用多进程
6. collate_fn：如何将多个样本数据拼接成一个batch，一般使用默认的拼接方式即可
7. pin_memory：是否将数据保存在pin memory区，pin memory中的数据转到GPU会快一些
8. drop_last：dataset中的数据个数可能不是batch_size的整数倍，drop_last为True会将多出来不足一个batch的数据丢弃

于是将num_workers参数值改成了默认值 0，不用多进程跑，程序可以运行了，激动万分，感激涕零啊

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer的更多相关文章

OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解（转）
cv::Matdepth/dims/channels/step/data/elemSizeThe class Mat represents an n-dimensional dense numeric ...
OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解
原文:OpenCV中对Mat里面depth,dims,channels,step,data,elemSize和数据地址计算的理解 Title : cv::Mat depth/dims/channels ...
HttpClient exception:ExceptionType:System.Threading.Tasks.TaskCanceledException: The operation was canceled. ---> System.IO.IOException: Unable to read data from the transport connection: Operation ca
error msg: System.Threading.Tasks.TaskCanceledException: The operation was canceled. ---> System. ...
Database mirroring connection error 4 'An error occurred while receiving data: '10054(An existing connection was forcibly closed by the remote host.)
公司一SQL Server镜像发生了故障转移(主备切换),检查SQL Server镜像发生主备切换的原因,在错误日志中发现下面错误: Date 2019/8/31 14:09:17 ...
【pytorch】torch.utils.data.DataLoader
简介 DataLoader是PyTorch中的一种数据类型.用于训练/验证/测试时的数据按批读取. torch.utils.data.DataLoader(dataset, batch_size=1, ...
pytorch .detach() .detach_() 和 .data用于切断反向传播
参考:https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-autograd/#detachsource 当我们再训 ...
pytorch的torch.utils.data.DataLoader认识
PyTorch中数据读取的一个重要接口是torch.utils.data.DataLoader,该接口定义在dataloader.py脚本中,只要是用PyTorch来训练模型基本都会用到该接口, 该接 ...
ssd训练之bug:Invalid JPEG data or crop window, data size 565248
bug信息 tensorflow.python.framework.errors_impl.InvalidArgumentError: Invalid JPEG data or crop window ...
pytorch bug
ImportError: torch.utils.ffi is deprecated raise ImportError("torch.utils.ffi is deprecated. Pl ...

随机推荐

weblogic linux环境下新建domain
1. cd /home/weblogic/Oracle/Middleware/wlserver_10.3/common/bin 2. ./config.sh -mode=console(用控制台模式安 ...
招聘ETL开发工程师
上班地点徐汇本科以上学历 3年以上ETL开发经验熟悉Oracle数据库,精通PL SQL开发与优化,熟悉Vertica或者GreenPlum库优先熟悉数据库性能优化,有海量数据处理经验优先自荐 ...
excel支持正则表达式提取字符函数（支持RegExp捕获分组）
一.要让excel脚本支持Microsoft VBScript Regular Expressions 5.5 ,按快捷键alt+F11,出现下图界面,操作如图示: 二.添加VBA代码: 代码添加完毕 ...
问题：计算foldRight(1)(_-_) 与foldLeft(1)(_-_)值不一样
List(1,2,3,4)问题:计算foldRight(1)(_-_) 与foldLeft(1)(_-_)值不一样首先看foldRight(1)(_-_)计算过程((( (1-1)-2)-3)-4) ...
vue公共
1 需求:在做项目的过程中发现,有一些功能是公共的,于是就想把这些公共的功能抽出来,做成独立的模块,别的项目需要用到,直接引用这个模块 2 问题: 前端:1 是用vue做的,vue的跳转是通过rout ...
去除最后一个li的样式
推荐::::方法一,使用:first-child 纯css的:first-child伪类就可以胜任此任务,操作很方便,代码量忽略不计.支持IE7+,不支持IE6 :first-child /:l ...
Day07 (黑客成长日记) 函数的参数及作用
定义函数: 1.定义函数注意: (1)位置参数:直接定义函数. def func(a,b): print(a,b) func(1,2) (2)默认参数:关键字参数:参数名= ‘默认的值‘ def fu ...
Android逆向破解表单注册程序
Android逆向破解表单注册程序 Android开发 ADT: android studio(as) 程序界面如下,注册码为6位随机数字,注册成功时弹出通知注册成功,注册失败时弹出通知注册失败. 布 ...
python之路(十七)-javascript
JavaScript JavaScript是一门编程语言,浏览器内置了JavaScript语言的解释器,所以在浏览器上按照JavaScript语言的规则编写相应代码之,浏览器可以解释并做出相应的处理. ...
java（一）基础部分
1.11.简单讲一下java的跨平台原理 Java通过不同的系统.不同版本.不同位数的java虚拟机(jvm),来屏蔽不同的系统指令集差异而对外体统统一的接口(java API),对于我们普通的jav ...

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer

pytorch bug: for step,data in enumerate(loader)+Connection reset by peer的更多相关文章

随机推荐

热门专题