PyTorch 之 DataLoader

DataLoader

DataLoader 是 PyTorch 中读取数据的一个重要接口，该接口定义在 dataloader.py 文件中，该接口的目的：将自定义的 Dataset 根据 batch size 的大小、是否 shuffle 等封装成一个 batch size 大小的 Tensor，用于后面的训练。

通过 DataLoader，使得我们在准备 mini-batch 时可以多线程并行处理，这样可以加快准备数据的速度。

DataLoader 是一个高效、简洁、直观地网络输入数据结构，便于使用和扩展

DataLoader 本质是一个可迭代对象，使用 iter() 访问，不能使用 next() 访问

使用 iter(dataloader) 返回的是一个迭代器，然后使用 next() 访问

也可以使用 for features, targets in dataloaders 进行可迭代对象的访问

一般我们实现一个 datasets 对象，传入到 DataLoader 中，然后内部使用 yield 返回每一次 batch 的数据

DataLoader(object) 的部分参数：

# 传入的数据集

dataset(Dataset)

# 每个 batch 有多少个样本

batch_size(int, optional)

# 在每个 epoch 开始的时候，对数据进行重新排序

shuffle(bool, optional)

# 自定义从数据集中抽取样本的策略，如果指定这个参数，那么 shuffle 必须为 False

sampler(Sampler, optional)

# 与 sampler 类似，但是一次只返回一个 batch 的 indices（索引），如果指定这个参数，那么 batch_size, shuffle, sampler, drop_last 就不能再指定了

batch_sampler(Sampler, optional)

# 这个参数决定有多少进程处理数据加载，0 意味着所有数据都会被加载到主进程，默认为0

num_workers(int, optional)

# 如果设置为 True，则最后不足batch_size大小的数据会被丢弃，比如batch_size=64, 而一个epoch只有100个样本，则最后36个会被丢弃；如果设置为False，则最后的batch_size会小一点

drop_last(bool, optional)

Reference:

pytorch之dataloader深入剖析

PyTorch 之 DataLoader的更多相关文章

[pytorch修改]dataloader.py 实现darknet中的subdivision功能
dataloader.py import random import torch import torch.multiprocessing as multiprocessing from torch. ...
Pytorch自定义dataloader以及在迭代过程中返回image的name
pytorch官方给的加载数据的方式是已经定义好的dataset以及loader,如何加载自己本地的图片以及label? 形如数据格式为 image1 label1 image2 label2 ... ...
pytorch之dataloader深入剖析
PyTorch学习笔记(6)——DataLoader源代码剖析 - dataloader本质是一个可迭代对象,使用iter()访问,不能使用next()访问: - 使用iter(dataloader) ...
一文弄懂Pytorch的DataLoader, DataSet, Sampler之间的关系
以下内容都是针对Pytorch 1.0-1.1介绍. 很多文章都是从Dataset等对象自下往上进行介绍,但是对于初学者而言,其实这并不好理解,因为有的时候会不自觉地陷入到一些细枝末节中去,而不能把握 ...
PyTorch之DataLoader杂谈
输入数据PipeLine pytorch 的数据加载到模型的操作顺序是这样的: ①创建一个 Dataset 对象②创建一个 DataLoader 对象③循环这个 DataLoader 对象,将img, ...
pytorch中DataLoader, DataSet, Sampler之间的关系
转自:https://mp.weixin.qq.com/s/RTv0cUWvc0kuXBeNoXVu_A 自上而下理解三者关系首先我们看一下DataLoader.__next__的源代码长什么样,为 ...
pytorch Dataset Dataloader用法（一个示例）
from torch.utils.data import Dataset from torch.utils.data import DataLoader from torch.utils.data i ...
pytorch 中Dataloader中的collate_fn参数
一般的,默认的collate_fn函数是要求一个batch中的图片都具有相同size(因为要做stack操作),当一个batch中的图片大小都不同时,可以使用自定义的collate_fn函数,则一个b ...
【pytorch】torch.utils.data.DataLoader
简介 DataLoader是PyTorch中的一种数据类型.用于训练/验证/测试时的数据按批读取. torch.utils.data.DataLoader(dataset, batch_size=1, ...

随机推荐

利用Python调用pastebin.com API自动创建paste
在上一篇文章中,已经实现了模拟pastebin.com的账号登录,并且获取了api_dev_key,这一篇文章主要讲一下调用API创建paste 登录之后,进入API页面,发现网站已经提供了几个API ...
Django Form 初始化数据
修改 urls.py 添加 path('initial.html', views.initial), 修改 models.py class UserInfo(models.Model): name = ...
Transformer模型---encoder
一.简介论文链接:<Attention is all you need> 由google团队在2017年发表于NIPS,Transformer 是一种新的.基于 attention 机制 ...
基本 Python 面试问题
目录 1.为什么学习Python? 2.通过什么途径学习的Python? 3.Python和Java.PHP.C.C#.C++等其他语言的对比? 4.简述解释型和编译型编程语言? 5.Python解释 ...
201871010121-王方-《面向对象（java）程序设计对象》第十周学习总结
王方第九周Java实验总结项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.co ...
201871020225-牟星源《面向对象程序设计（java）》第十一周学习总结
201871020225-牟星源<面向对象程序设计(java)>第十一周学习总结博文正文开头: 项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu ...
第十一周博客作业 <西北师范大学| 周安伟>
第十一周助教作业助教博客链接https://home.cnblogs.com/u/zaw-315/ 作业要求链接https://www.cnblogs.com/nwnu-daizh/p/107615 ...
代码审计-md5()函数
<?php error_reporting(0); $flag = 'flag{test}'; if (isset($_GET['username']) and isset($_GET['pas ...
Maven打包插件Assembly（七）
1. 在 dubbo 的 provider 项目(实现类项目dubbo-service-impl)中 pom.xml 配置 assembly插件信息  ...
Django项目中出现的错误及解决办法（ValueError: Dependency on app with no migrations: customuser）
写项目的时候遇到了类似的问题,其实就是没有生成迁移文件,执行一下数据库迁移命令就好了 ValueError: Dependency on app with no migrations: customu ...

PyTorch 之 DataLoader

DataLoader

PyTorch 之 DataLoader的更多相关文章

随机推荐

热门专题