Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle

在进行相关平台的练习过程中，由于要自己导入数据集，而导入方法在市面上五花八门，各种库都可以应用，在这个过程中我准备尝试torchvision的库dataset

torchvision.datasets.ImageFolder

简单应用起来非常简单，用torchvision.datasets.ImageFolder实现图片的导入，在随后训练过程中用Datalodar处理后可按批次取出训练集

class ImageFolder(root, transform=None, target_transform=None, loader=default_loader, is_valid_file=None)

ImageFolder有这么几个参数，其中root指的是数据所在的文件夹，其中该文件夹的存储方式应为

root/labels/xxx.jpg

即根据自身分类标签存储在对应标签名的文件夹内

ImageFolder在读入的过程中会自行加好标签，最后形成一对对的数据

另外比较常用的就是transform，表示对于传入图片的预处理，如剪裁，颜色选择等等

比如

transform_t = transforms.Compose([

    transforms.Resize([64, 64]),

    transforms.Grayscale(num_output_channels=1),

    transforms.ToTensor()]

    )

具体参数可以上网查看

在之后用DataLodar处理后虽然的确有Shuffle的参数，但是却只是在一个小批次内进行打乱，原本是按照类别存储的，这样的话会导致很严重的过拟合，为了避免这个，我决定常识改写一下Dataset的类(主要是看起来Dataset看起来改写比较顺手...ImageFolder还没有看源码并没要对此下手)

但是Dataset需要读入一个个的训练数据的位置，怎么办呢？我就先写了一个小脚本，生成一个txt文件来存储所有数据的名称(相对路径)，同时在这一步就进行打乱操作【一眼看下去甚至会发现init的classnum参数完全没用上(捂脸

import os

import numpy as np

'''

self.target     顺序存储数据集

self.DataFile   存储根目录

self.s          存储所有数据

self.label      存储所有标签及其对应的值

'''

class create_list():

    def __init__(self,root,classnum=2):

        self.target=open("./Data.txt",'w')

        self.DataFile=root

        self.s=[]

        self.label={}

        self.datanum=0

    def create(self):

        files=os.listdir(self.DataFile)

        for labels in files:

            tempdata=os.listdir(self.DataFile+"/"+labels)

            self.label[labels]=len(self.label)

            for img in tempdata:

                self.datanum+=1

                self.target.write(self.DataFile+"/"+labels+"/"+img+" "+labels+"\n")

                self.s.append([self.DataFile+"/"+labels+"/"+img,labels])

    def detail(self):

        #查看数据数量以及标签对应

        print(self.datanum)

        print(self.label)

    def get_all(self):

        #查看所有数据

        print(self.s)

    def get_root(self):

        #获得根目录

        return self.DataFile

    def shuffle(self):

        #获得打乱的存储txt

        shuffle_file=open("./Shuffle_Data.txt",'w')

        temp=self.s

        np.random.shuffle(temp)

        for i in temp:

            shuffle_file.write(i[0]+" "+str(i[1])+"\n")

        return self.DataFile+"/Shuffle_Data.txt"

    def label_id(self,label):

        #获得该标签对应的值

        return self.label[label]

数据集的存储方式上的要求跟之前的ImageFolder一样

最终会生成一个这样的txt文件

数据集来源于某x光胸片判断...

而Shuffle操作就是为了生成打乱后的txt文件，我写的比较简单粗暴...先将就看吧，生成后大概就是这个样子

至少真正的做到打乱数据了

完成这个以后，就可以用此来帮助DataLodar了

接下来的代码或许比较辣眼睛...但是事实证明是有用的，但是可能Python技巧不太熟练所以就会显得很生涩...

我重现的Dataset类:

from PIL import Image

import torch

class cDataset(torch.utils.data.Dataset):

    def __init__(self, datatxt, root="", transform=None, target_transform=None, LabelDic=None):

        super(cDataset,self).__init__()

        files = open(root + "/" + datatxt, 'r')

        self.img=[]

        for i in files:

            i = i.rstrip()

            temp = i.split()

            if LabelDic!=None:

                self.img.append((temp[0],LabelDic[temp[1]]))

            else:

                self.img.append((temp[0],temp[0]))

        self.transform = transform

        self.target_transform = target_transform

    def __getitem__(self, index):

        files, label = self.img[index]

        img = Image.open(files).convert('RGB')

        if self.transform is not None:

            img = self.transform(img)

        return img,label

    def __len__(self):

        return len(self.img)

其实直接看就能大概看明白，主要也就是要实现类里面的几个方法

class cDataset(torch.utils.data.Dataset):

    def __init__():

    def __getitem__(self, index):

    def __len__(self):

其中getitm类似一次次的取出数据，len就是返回数据集数目

其中init的参数我做了稍许调整，由于我之前的txt内标签是字符串，而为了能让对应生成的tag是所要求的，可以传入一个字典，如:

LabelDic={"NORMAL":0,"PNEUMONIA":1}

这样就可以在之后转化为数字的标签，onehot或者怎么怎么样了,,,

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle的更多相关文章

『计算机视觉』Mask-RCNN_训练网络其一：数据集与Dataset类
Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mask-RCNN_推断网络其一:总览『计算机视觉』M ...
pytorch加载语音类自定义数据集
pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.u ...
MindSpore数据集mindspore::dataset
MindSpore数据集mindspore::dataset ResizeBilinear #include <image_process.h> bool ResizeBilinear(L ...
镶嵌数据集 Mosaic Dataset 的常见数据组织方式
镶嵌数据集是ESRI公司推出一种用于管理海量影像数据的数据模型,定义在GeoDatabase数据模型中. 它的常见数据组织方式有两种: 1. 源镶嵌数据集 Source Mosaic Dataset ...
以Network Dataset（网络数据集）方式实现的最短路径分析
转自原文以Network Dataset(网络数据集)方式实现的最短路径分析构建网络有两种方式,分别是网络数据集NetworkDataset和几何网络Geometric Network,这个网络结 ...
Pytorch入门上 —— Dataset、Tensorboard、Transforms、Dataloader
本节内容参照小土堆的pytorch入门视频教程.学习时建议多读源码,通过源码中的注释可以快速弄清楚类或函数的作用以及输入输出类型. Dataset 借用Dataset可以快速访问深度学习需要的数据,例 ...
PyTorch笔记之 Dataset 和 Dataloader
一.简介在 PyTorch 中,我们的数据集往往会用一个类去表示,在训练时用 Dataloader 产生一个 batch 的数据 https://pytorch.org/tutorials/begi ...
Pandas将中文数据集转换为数值类别型数据集
一个机器学习竞赛中,题目大意如下,本文主要记录数据处理过程,为了模型训练,第一步需要将中文数据集处理为数值类别数据集保存. 基于大数据的运营商投诉与故障关联分析目标:原始数据集是含大量中文的xls格 ...
ADO.NET之使用DataSet类更新数据库
1.首先从数据库获得数据填充到DataSet类,该类中的表和数据库中的表相互映射. 2.对DataSet类中的表进行修改(插入,更新,删除等) 3.同步到数据库中:使用SqlDataAdapter实例 ...

随机推荐

word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...
Vue三步完成跨域请求
三步完成跨域请求 ①main.js中: Vue.prototype.HOME = '/api'; ② config/index.js中: module.exports = { dev: { // Pa ...
滴滴热力图-php版（后面有js版本）
) * ) ) * ) {) * *pi() / ) * ]) % ) {//在多边形外return false;} else { //在多边形内return true;} }
Github配合Jenkins，实现vue等前端项目的自动构建与发布
本篇文章前端项目以vue为例(其实前端工程化项目的操作方法都相同),部署在Linux系统上(centos). 之前做前端项目的部署,一直都是手动运行打包命令,打包完.再使用FTP.Xshell等这类的 ...
控制器向视图传参ModelAndView、Model和Map
ModelAndView类 ModelAndView在spring-webmvc-4.3.18.RELEASE.jar包下,当然其他版本也有,所在包如下对于那些返回String等类型的处理方法,sp ...
CentOS 8 网卡设置
本次测试环境是在虚拟机上测试网卡配置文件路径:/etc/sysconfig/network-scripts/ifcfg-ens33 [root@localhost ~]# cd /etc/sysco ...
Hyper-V虚拟机win7网络红叉，无法上网解决方法
之前一直都是玩Vmware虚拟机,后来win8之后的系统有Hyper-V虚拟机就开始接触了. Windows 中内置的Hyper-V管理器可以说是给很多人带来了惊喜!至少运行的流畅程度要比Vmware ...
Python+Tornado+Tampermonkey 获取某讯等主流视频网站的会员视频解析播放
近期,<哪吒之魔童降世>在各大视频软件可以看了,然而却是一贯的套路,非会员谢绝观看!!!只能从国内那些五花八门的视频网站上找着看了,或者通过之前本人说的 Chrome 的油猴插件,传送门 ...
Python接口测试框架实战与自动化进阶☝☝☝
Python接口测试框架实战与自动化进阶☝☝☝ 一.fiddler在工作中的运用 1.如何抓接口抓紧手机端接口 ①.在电脑终端输入:ipconfig ,找到电脑ip ②.打开手机,连接WiFi, ...
解读C#中的正则表达式
本文摘自LTP.NET知识库. regexp规则类包含在System.Text.RegularExpressions.dll文件中,在对应用软件进行编译时你必须引用这个文件: System.Text. ...

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle的更多相关文章

随机推荐

热门专题