Pytorch技法：继承Subset类完成自定义数据拆分

我们在《torch.utils.data.DataLoader与迭代器转换》中介绍了如何使用Pytorch内置的数据集进行论文实现，如torchvision.datasets。下面是加载内置训练数据集的常见操作：

from torchvision.datasets import FashionMNIST

from torchvision.transforms import Compose, ToTensor, Normalize

RAW_DATA_PATH = './rawdata'

transform = Compose(

        [ToTensor(),

         Normalize((0.1307,), (0.3081,))

         ]

    )

train_data = FashionMNIST(

        root=RAW_DATA_PATH,

        download=True,

        train=True,

        transform=transform

    )

这里的train_data做为dataset对象，它拥有许多熟悉，我们可以通过以下方法获取样本数据的分类类别集合、样本的特征维度、样本的标签集合等信息。

classes = train_data.classes

num_features = train_data.data[0].shape[0]

train_labels = train_data.targets

print(classes)

print(num_features)

print(train_labels)

输出如下:

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

28

tensor([9, 0, 0,  ..., 3, 0, 5])

但是，我们常常会在训练集的基础上拆分出验证集（或者只用部分数据来进行训练）。我们想到的第一个方法是使用torch.utils.data.random_split对dataset进行划分，下面我们假设划分10000个样本做为训练集，其余样本做为验证集：

from torch.utils.data import random_split

k = 10000

train_data, valid_data = random_split(train_data, [k, len(train_data)-k])

注意我们如果打印train_data和valid_data的类型，可以看到显示：

<class 'torch.utils.data.dataset.Subset'>

已经不再是torchvision.datasets.mnist.FashionMNIST对象，而是一个所谓的Subset对象！此时Subset对象虽然仍然还存有data属性，但是内置的target和classes属性已经不复存在，比如如果我们强行访问valid_data的target属性：

valid_target = valid_data.target

就会报如下错误：

'Subset' object has no attribute 'target'

但如果我们在后续的代码中常常会将拆分后的数据集也默认为dataset对象，那么该如何做到代码的一致性呢？

这里有一个trick，那就是以继承SubSet类的方式的方式定义一个新的CustomSubSet类，使新类在保持SubSet类的基本属性的基础上，拥有和原本数据集类相似的属性，如targets和classes等:

from torch.utils.data import Subset

class CustomSubset(Subset):

    '''A custom subset class'''

    def __init__(self, dataset, indices):

        super().__init__(dataset, indices)

        self.targets = dataset.targets # 保留targets属性

        self.classes = dataset.classes # 保留classes属性

    def __getitem__(self, idx): #同时支持索引访问操作

        x, y = self.dataset[self.indices[idx]]

        return x, y 

    def __len__(self): # 同时支持取长度操作

        return len(self.indices)

然后就引出了第二种划分方法，即通过初始化CustomSubset对象的方式直接对数据集进行划分（这里为了简化省略了shuffle的步骤）：

import numpy as np

from copy import deepcopy

origin_data = deepcopy(train_data)

train_data = CustomSubset(origin_data, np.arange(k))

valid_data = CustomSubset(origin_data, np.arange(k, len(origin_data))-k)

注意，CustomSubset类的初始化方法的第二个参数indices为样本索引，我们可以通过np.arange()的方法来创建。

然后，我们再访问valid_data对应的classes和targes属性：

print(valid_data.classes)

print(valid_data.targets)

此时，我们发现可以成功访问这些属性了：

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

tensor([9, 0, 0,  ..., 3, 0, 5])

当然，CustomSubset的作用并不只是添加数据集的属性，我们还可以自定义一些数据预处理操作。我们将类的结构修改如下：

class CustomSubset(Subset):

    '''A custom subset class with customizable data transformation'''

    def __init__(self, dataset, indices, subset_transform=None):

        super().__init__(dataset, indices)

        self.targets = dataset.targets

        self.classes = dataset.classes

        self.subset_transform = subset_transform

    def __getitem__(self, idx):

        x, y = self.dataset[self.indices[idx]]

        if self.subset_transform:

            x = self.subset_transform(x)

        return x, y   

    def __len__(self):

        return len(self.indices)

我们可以在使用样本前设置好数据预处理算子:

from torchvision import transforms

valid_data.subset_transform = transforms.Compose(\

    [transforms.RandomRotation((180,180))])

这样，我们再像下列这样用索引访问取出数据集样本时，就会自动调用算子完成预处理操作:

print(valid_data[0])

打印结果缩略如下：



(tensor([[[-0.4242, -0.4242, -0.4242, ......-0.4242, -0.4242, -0.4242, -0.4242, -0.4242]]]), 9)

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

[Pytorch]PyTorch Dataloader自定义数据读取
整理一下看到的自定义数据读取的方法,较好的有一下三篇文章, 其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了,所以需要根据数据集随机应变. 所 ...
[深度学习] pytorch学习笔记（4）(Module类、实现Flatten类、Module类作用、数据增强)
一.继承nn.Module类并自定义层我们要利用pytorch提供的很多便利的方法,则需要将很多自定义操作封装成nn.Module类. 首先,简单实现一个Mylinear类: from torch ...
.Net 配置文件--继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
.Net 配置文件——继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
WPF 之创建继承自Window 基类的自定义窗口基类
开发项目时,按照美工的设计其外边框(包括最大化,最小化,关闭等按钮)自然不同于 Window 自身的,但窗口的外边框及窗口移动.最小化等标题栏操作基本都是一样的.所以通过查看资料,可按如下方法创建继承 ...
QVariant类及QVariant与自定义数据类型转换的方法
这个类型相当于是Java里面的Object,它把绝大多数Qt提供的数据类型都封装起来,起到一个数据类型“擦除”的作用.比如我们的 table单元格可以是string,也可以是int,也可以是一个颜色值 ...
【spring boot】7.静态资源和拦截器处理以及继承WebMvcConfigurerAdapter类进行更多自定义配置
开头是鸡蛋,后面全靠编!!! ======================================================== 1.默认静态资源映射路径以及优先顺序 Spring B ...
JS面向对象（1） -- 简介，入门，系统常用类，自定义类，constructor，typeof，instanceof，对象在内存中的表现形式
相关链接: JS面向对象(1) -- 简介,入门,系统常用类,自定义类,constructor,typeof,instanceof,对象在内存中的表现形式 JS面向对象(2) -- this的使用,对 ...
[转]MVC自定义数据验证（两个时间的比较）
本文转自:http://www.cnblogs.com/zhangliangzlee/archive/2012/07/26/2610071.html Model: public class Model ...

随机推荐

RabbitMQ --- 直连交换机【无回调方法，不能获取消费结果】
1.前言消息队列除了kafka 外,还有许多种,比如RabbitMQ .ActiveMQ.ZeroMQ.JMQ等. 老牌的ActiveMQ ,底层使用Java写的,资源消耗大,速度也慢,但是适合 J ...
python 迭代器链式处理数据
pytorch.utils.data可兼容迭代数据训练处理,在dataloader中使用提高训练效率:借助迭代器避免内存溢出不足的现象.借助链式处理使得数据读取利用更高效(可类比操作系统的资源调控) ...
Kong 微服务网关在 Kubernetes 的实践
来源:分布式实验室译者:qianghaohao本文主要介绍将 Kong 微服务网关作为 Kubernetes (https://www.alauda.cn)集群统一入口的最佳实践,之前写过一篇文章使用 ...
HDU 1106 (1.3.5) 排序（C语言描述）
排序 Problem Description 输入一行数字,如果我们把这行数字中的'5'都看成空格,那么就得到一行用空格分割的若干非负整数(可能有些整数以'0'开头,这些头部的'0'应该被忽略掉,除非 ...
《剑指offer》面试题67. 把字符串转换成整数
问题描述写一个函数 StrToInt,实现把字符串转换成整数这个功能.不能使用 atoi 或者其他类似的库函数. 首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止. ...
http状态码 200 304 404 503等
浏览器采用http请求时,会封装http get等信息见下图请求头,然后服务器响应后回发一些信息,包括状态码,响应头,响应信息等等,如下图. 右上图可见两种状态码,一种是200 一种是304.其中20 ...
vue学习12-表单属性绑定
1 <!DOCTYPE html> 2 <html lang='en'> 3 <head> 4 <meta charset='UTF-8'> 5 < ...
返回值ModelAndView
Sublime Text4 安装与配置记录
Sublime Text作为一款优质的Code编辑器,已更新至第4个版本,本文记录关于Sublime Text 4[版本4126]的安装.汉化,以及常用配置方法. 安装访问官网下载安装包:https ...
统信UOS系统部署.Net Core 5.0
平时很少用Linux,需要的时候才查资料,记录下遇到的问题和解决办法.这次部署的系统是统信UOS,arm64位CPU 第一步:安装.Net Core 5.0运行环境统信UOS是基于Debian 10 ...

Pytorch技法：继承Subset类完成自定义数据拆分

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

随机推荐

热门专题