Pytorch Dataset入门

Dataset入门

Pytorch Dataset code：torch/utils/data/dataset.py#L17

Pytorch Dataset tutorial: tutorials/beginner/basics/data_tutorial.html

理论：

PyTorch中的Dataset是一个抽象类，用来表示数据集的接口，所有其他数据集都需要继承这个类，并且覆写以下三个方法：

__init__：初始化数据集的一些配置，例如加载所有的数据标签。
__len__：以便len(dataset)可以返回数据集的大小，例如n。如果n小于数据集长度，则只会取前n个的数据。
__getitem__：输入是数据的索引，以便可以使用dataset[i]来获取第i个样本，数据增强一般会在这里做。

代码：

下面是一个自定义的Dataset样例（不可执行）：

import cv2

import json

import torch.utils.Dataset as Dataset

class CustomDataset(Dataset):

    def __init__(self, imgs_path, labels_path, img_transform=None, label_transform=None):

        self.imgs_path = imgs_path  # 输入图像的路径，list

        self.labels_path = labels_path  # 输入图像对应的标签路径，list

        self.img_transform = img_transform  # 图像的数据增强

        self.label_transform = label_transform  # 标签的数据增强

    def __len__(self):

        return len(self.imgs_path)  # 返回数据集的长度

    def __getitem__(self, idx):

        img_path = self.imgs_path[idx]

        label_path = self.labels_path[idx]

        img = cv2.imread(img_path)  # 读取图像

        label = json.load(open(label_path))  # 读取标签

        if self.img_transform:  # 图像的数据增强

            img = self.img_transform(img)

        if self.label_transform:  # 标签的数据增强

            label = self.label_transform(label)

        return img, label  # 返回图像和标签，用于训练

总结：

值得注意的是，Dataset只负责数据的加载和预处理，对于如何训练数据（例如：是否进行shuffle，是否进行并行加速等）这部分的逻辑是由DataLoader实现的。通常情况下，我们会将Dataset和DataLoader一起使用。

另外，PyTorch还提供了一些常用的数据集，如：ImageFolder，CIFAR10，MNIST等，这些数据集都是继承Dataset类，同时在init方法中进行数据的下载，以及在getitem方法中进行数据的加载和预处理。

Dataset是单线程读取数据，每次只能读取一个样本，不能一次性读取一个mini-batch的数据。

Dataset的主要特性包含：

抽象接口：PyTorch通过定义一个抽象Dataset类，让用户可以使用统一的方式来加载各种不同的数据，提供了很好的扩展性。
懒加载：实际的数据载入并不发生在构造数据集实例时，而是发生在用到这些数据时，这样可以提高内存利用率，并且可以实现对大规模数据的处理。
预处理：Dataset的一个重要应用就是数据预处理，你可以在getitem函数中进行任何你的数据预处理过程。

嗨，欢迎大家关注我的公众号《CV之路》，一起讨论问题，一起学习进步~

Pytorch Dataset入门的更多相关文章

《深度学习框架PyTorch：入门与实践》读书笔记
https://github.com/chenyuntc/pytorch-book Chapter2 :PyTorch快速入门 + Chapter3: Tensor和Autograd + Chapte ...
【笔记】PyTorch快速入门：基础部分合集
PyTorch快速入门 Tensors Tensors贯穿PyTorch始终和多维数组很相似,一个特点是可以硬件加速 Tensors的初始化有很多方式直接给值 data = [[1,2],[3, ...
《深度学习框架PyTorch：入门与实践》的Loss函数构建代码运行问题
在学习陈云的教程<深度学习框架PyTorch:入门与实践>的损失函数构建时代码如下: 可我运行如下代码: output = net(input) target = Variable(t.a ...
pytorch怎么入门学习
pytorch怎么入门学习 https://www.zhihu.com/question/55720139
pytorch从入门到放弃（目录）
目录前置基础 Pytorch从入门到放弃推荐阅读前置基础 Python从入门到放弃(目录) 人工智能(目录) Pytorch从入门到放弃 01_pytorch和tensorflow的区别 02_ ...
Pytorch Dataset和Dataloader 学习笔记(二)
Pytorch Dataset & Dataloader Pytorch框架下的工具包中,提供了数据处理的两个重要接口,Dataset 和 Dataloader,能够方便的使用和加载自己的数据 ...
图神经网络 PyTorch Geometric 入门教程
简介 Graph Neural Networks 简称 GNN,称为图神经网络,是深度学习中近年来一个比较受关注的领域.近年来 GNN 在学术界受到的关注越来越多,与之相关的论文数量呈上升趋势,GNN ...
识别手写数字增强版100% - pytorch从入门到入道(一)
手写数字识别,神经网络领域的“hello world”例子,通过pytorch一步步构建,通过训练与调整,达到“100%”准确率 1.快速开始 1.1 定义神经网络类,继承torch.nn.Modul ...
Pytorch dataset自定义【直播】2019 年县域农业大脑AI挑战赛---数据准备(二)，Dataset定义
在我的torchvision库里介绍的博文(https://www.cnblogs.com/yjphhw/p/9773333.html)里说了对pytorch的dataset的定义方式. 本文相当于实 ...
pytorch Dataset Dataloader用法（一个示例）
from torch.utils.data import Dataset from torch.utils.data import DataLoader from torch.utils.data i ...

随机推荐

TCP 中的 Delay ACK 和 Nagle 算法
哈喽大家好,我是咸鱼. 今天分享一篇大佬的文章,作者:卡瓦邦噶! 文章链接:https://www.kawabangga.com/posts/5845 教科书介绍的 TCP 内容通常比较基础:包括三次 ...
P8+架构师养成计划
一.P8+要求 1.收集能力要求 1.专业能力技术架构.业务架构.做到无中生有. 2.基石能力沟通协调能力.团队管理能力.逻辑能力.风险控制能力. 3.影响力团队内部影响.外部影响.行业影响力. ...
JS案例-网页轮播图
鼠标经过轮播图模块,左右按钮提示,离开隐藏左右按钮点击右侧按钮一次,图片往左播放一张,以此类推,左侧按钮同理图片播放的同时,下面小圆圈模块跟随一起变化点击小圆圈,可以播放相应图片鼠标不经过轮播 ...
vscode 智能提示函数提示右侧有所在目录 Show Inline Details
vscode 智能提示函数提示右侧有所在目录 Show Inline Details 有目录提示的没有目录提示的默认是有目录提示,我那个配置单啊~ "editor.suggest.sh ...
iView 表单验证如果prop字段和表单里的字段对不上，会触发校验，提示错误信息
iView 表单验证如果prop字段和表单里的字段对不上,会触发校验,提示错误信息原因: 在某些情况,没有id,只有文本的时候,需要返显文本,直接用input显示文本,就会出现,触发数据校验的问题 ...
c语言中静态链接库的创建和使用
静态链接库的创建静态链接库其实就相当于压缩包,其内部可以包含多个源文件.但需要注意的是,并非任何一个源文件都可以被加工成静态链接库,其至少需要满足以下 2 个条件: 源文件中只提供可以重复使用的代码 ...
HDU 2056:Rectangles(两个矩形交点的性质)
一.原题链接 Problem - 2056 (hdu.edu.cn) 二.题面 Given two rectangles and the coordinates of two points on th ...
Python伪数据生成器Mimesis 使用
一.**Mimesis的介绍** Mimesis是一个用于Python的high-performance伪数据生成器,它用各种语言为各种目的提供数据.这些假数据可以用来填充测试数据库,创建假API端点 ...
记录--a标签跳转新地址无法访问，但手动输入新地址可以访问
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助问题描述最近遇到一个有意思的问题,项目中有一个地方,点击需要跳转到一个新的域名地址笔者使用a标签做跳转,跳是跳过去了,可是跳过去以后, ...
鸿蒙HarmonyOS实战-ArkTS语言（状态管理）
前言状态管理是指在应用程序中维护和更新应用程序状态的过程.在一个程序中,可能有很多不同的组件和模块,它们需要共享和相互作用的状态.如果没有一个明确的方式来管理这些状态,就会导致代码混乱.不易维护和难 ...

Pytorch Dataset入门

Dataset入门

理论：

代码：

总结：

Pytorch Dataset入门的更多相关文章

随机推荐

热门专题