Pytorch技法：继承Subset类完成自定义数据拆分

我们在《torch.utils.data.DataLoader与迭代器转换》中介绍了如何使用Pytorch内置的数据集进行论文实现，如torchvision.datasets。下面是加载内置训练数据集的常见操作：

from torchvision.datasets import FashionMNIST

from torchvision.transforms import Compose, ToTensor, Normalize

RAW_DATA_PATH = './rawdata'

transform = Compose(

        [ToTensor(),

         Normalize((0.1307,), (0.3081,))

         ]

    )

train_data = FashionMNIST(

        root=RAW_DATA_PATH,

        download=True,

        train=True,

        transform=transform

    )

这里的train_data做为dataset对象，它拥有许多熟悉，我们可以通过以下方法获取样本数据的分类类别集合、样本的特征维度、样本的标签集合等信息。

classes = train_data.classes

num_features = train_data.data[0].shape[0]

train_labels = train_data.targets

print(classes)

print(num_features)

print(train_labels)

输出如下:

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

28

tensor([9, 0, 0,  ..., 3, 0, 5])

但是，我们常常会在训练集的基础上拆分出验证集（或者只用部分数据来进行训练）。我们想到的第一个方法是使用torch.utils.data.random_split对dataset进行划分，下面我们假设划分10000个样本做为训练集，其余样本做为验证集：

from torch.utils.data import random_split

k = 10000

train_data, valid_data = random_split(train_data, [k, len(train_data)-k])

注意我们如果打印train_data和valid_data的类型，可以看到显示：

<class 'torch.utils.data.dataset.Subset'>

已经不再是torchvision.datasets.mnist.FashionMNIST对象，而是一个所谓的Subset对象！此时Subset对象虽然仍然还存有data属性，但是内置的target和classes属性已经不复存在，比如如果我们强行访问valid_data的target属性：

valid_target = valid_data.target

就会报如下错误：

'Subset' object has no attribute 'target'

但如果我们在后续的代码中常常会将拆分后的数据集也默认为dataset对象，那么该如何做到代码的一致性呢？

这里有一个trick，那就是以继承SubSet类的方式的方式定义一个新的CustomSubSet类，使新类在保持SubSet类的基本属性的基础上，拥有和原本数据集类相似的属性，如targets和classes等:

from torch.utils.data import Subset

class CustomSubset(Subset):

    '''A custom subset class'''

    def __init__(self, dataset, indices):

        super().__init__(dataset, indices)

        self.targets = dataset.targets # 保留targets属性

        self.classes = dataset.classes # 保留classes属性

    def __getitem__(self, idx): #同时支持索引访问操作

        x, y = self.dataset[self.indices[idx]]

        return x, y 

    def __len__(self): # 同时支持取长度操作

        return len(self.indices)

然后就引出了第二种划分方法，即通过初始化CustomSubset对象的方式直接对数据集进行划分（这里为了简化省略了shuffle的步骤）：

import numpy as np

from copy import deepcopy

origin_data = deepcopy(train_data)

train_data = CustomSubset(origin_data, np.arange(k))

valid_data = CustomSubset(origin_data, np.arange(k, len(origin_data))-k)

注意，CustomSubset类的初始化方法的第二个参数indices为样本索引，我们可以通过np.arange()的方法来创建。

然后，我们再访问valid_data对应的classes和targes属性：

print(valid_data.classes)

print(valid_data.targets)

此时，我们发现可以成功访问这些属性了：

['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

tensor([9, 0, 0,  ..., 3, 0, 5])

当然，CustomSubset的作用并不只是添加数据集的属性，我们还可以自定义一些数据预处理操作。我们将类的结构修改如下：

class CustomSubset(Subset):

    '''A custom subset class with customizable data transformation'''

    def __init__(self, dataset, indices, subset_transform=None):

        super().__init__(dataset, indices)

        self.targets = dataset.targets

        self.classes = dataset.classes

        self.subset_transform = subset_transform

    def __getitem__(self, idx):

        x, y = self.dataset[self.indices[idx]]

        if self.subset_transform:

            x = self.subset_transform(x)

        return x, y   

    def __len__(self):

        return len(self.indices)

我们可以在使用样本前设置好数据预处理算子:

from torchvision import transforms

valid_data.subset_transform = transforms.Compose(\

    [transforms.RandomRotation((180,180))])

这样，我们再像下列这样用索引访问取出数据集样本时，就会自动调用算子完成预处理操作:

print(valid_data[0])

打印结果缩略如下：



(tensor([[[-0.4242, -0.4242, -0.4242, ......-0.4242, -0.4242, -0.4242, -0.4242, -0.4242]]]), 9)

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

[Pytorch]PyTorch Dataloader自定义数据读取
整理一下看到的自定义数据读取的方法,较好的有一下三篇文章, 其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了,所以需要根据数据集随机应变. 所 ...
[深度学习] pytorch学习笔记（4）(Module类、实现Flatten类、Module类作用、数据增强)
一.继承nn.Module类并自定义层我们要利用pytorch提供的很多便利的方法,则需要将很多自定义操作封装成nn.Module类. 首先,简单实现一个Mylinear类: from torch ...
.Net 配置文件--继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
.Net 配置文件——继承ConfigurationSection实现自定义处理类处理自定义配置节点
除了使用继承IConfigurationSectionHandler的方法定义处理自定义节点的类,还可以通过继承ConfigurationSection类实现同样效果. 首先说下.Net配置文件中一个 ...
WPF 之创建继承自Window 基类的自定义窗口基类
开发项目时,按照美工的设计其外边框(包括最大化,最小化,关闭等按钮)自然不同于 Window 自身的,但窗口的外边框及窗口移动.最小化等标题栏操作基本都是一样的.所以通过查看资料,可按如下方法创建继承 ...
QVariant类及QVariant与自定义数据类型转换的方法
这个类型相当于是Java里面的Object,它把绝大多数Qt提供的数据类型都封装起来,起到一个数据类型“擦除”的作用.比如我们的 table单元格可以是string,也可以是int,也可以是一个颜色值 ...
【spring boot】7.静态资源和拦截器处理以及继承WebMvcConfigurerAdapter类进行更多自定义配置
开头是鸡蛋,后面全靠编!!! ======================================================== 1.默认静态资源映射路径以及优先顺序 Spring B ...
JS面向对象（1） -- 简介，入门，系统常用类，自定义类，constructor，typeof，instanceof，对象在内存中的表现形式
相关链接: JS面向对象(1) -- 简介,入门,系统常用类,自定义类,constructor,typeof,instanceof,对象在内存中的表现形式 JS面向对象(2) -- this的使用,对 ...
[转]MVC自定义数据验证（两个时间的比较）
本文转自:http://www.cnblogs.com/zhangliangzlee/archive/2012/07/26/2610071.html Model: public class Model ...

随机推荐

OSPF路由协议详解
OSPF:开放式最短路径优先协议无类别链路状态路由协议,组播更新224.0.0.5/6:跨层封装到三层,协议号89:基于拓扑工作,故更新量大-----需要结构化部署–区域划分.地址规划触发更新.每30 ...
spring cloud --- 使用 actuator 热更新【刷新】单机配置文件
1.前言分布式微服务想要热更新配置文件,还需要消息中间件配合使用 ,一般使用 rabbitMQ 或 Kafka ,这里不解释 . 这篇随笔只讲解底层的单机热更新配置文件 2.环境 spri ...
展示html/javascript/css------Live-Server服务器
Live-server简介这是一款带有热加载功能的小型开发服务器.用它来展示你的HTML / JavaScript / CSS,但不能用于部署最终的网站. 官网地址:https://www.npmj ...
我以订披萨为例，给女朋友详细讲了Java设计模式的3种工厂模式
摘要:工厂模式是将实例化对象的代码提取出来,放到一个类中统一管理和维护,达到和主项目的依赖关系的解耦.从而提高项目的扩展和维护性. 本文分享自华为云社区<[Java设计模式]用披萨订购案例详 ...
LINUX系统机器人
简介在2016年,国内的软硬件尚不能有效支撑我们制造智能机器人,我们无法有效在Linux进行语音唤醒,只能使用斯坦福大学狮身人面像语音开源项目来进行英文识别我们对RIMA的呼唤,抗干扰性为0,意味着 ...
如何根据经纬度计算地面上某点在XYZ空间直角坐标系中的坐标
如何根据经纬度计算地面上某点在XYZ空间直角坐标系中的坐标 /** * @param r: number 到地心的距离 * @param lon: number 经度 * @param lat: nu ...
一段关于java NIO server端接受客户端socket连接；演示了关于channel,selector等组件的整合使用
public class ReactorDemo { public static void main(String[] args) throws IOException { ServerSocketC ...
Elasticsearch使用系列-ES增删查改基本操作+ik分词
Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词一.安装可视化工具Kibana ES是一个NoSql数据库应用.和其他数据库 ...
MySQL存储引擎(最全面的概括)
目录一:MySQL存储引擎 1.什么是存储引擎? 2.查看存储引擎信息二:MySQL支持的存储引擎 1.存储引擎三:innoDB存储引擎 1.特性 2.存储结构 3.优缺点.适用场景四:MyI ...
linux中shell编程 --＞三剑客习题汇总
目录 1.找出/proc/meminfo文件中以s开头的行,至少用三种方式忽略大小写 2.显示当前系统上的以root,centos或者user开头的信息 3.找出/etc/init.d/functio ...

Pytorch技法：继承Subset类完成自定义数据拆分

Pytorch技法：继承Subset类完成自定义数据拆分的更多相关文章

随机推荐

热门专题