在进行相关平台的练习过程中,由于要自己导入数据集,而导入方法在市面上五花八门,各种库都可以应用,在这个过程中我准备尝试torchvision的库dataset

torchvision.datasets.ImageFolder

简单应用起来非常简单,用torchvision.datasets.ImageFolder实现图片的导入,在随后训练过程中用Datalodar处理后可按批次取出训练集

class ImageFolder(root, transform=None, target_transform=None, loader=default_loader, is_valid_file=None)

ImageFolder有这么几个参数,其中root指的是数据所在的文件夹,其中该文件夹的存储方式应为

root/labels/xxx.jpg

即根据自身分类标签存储在对应标签名的文件夹内

ImageFolder在读入的过程中会自行加好标签,最后形成一对对的数据

另外比较常用的就是transform,表示对于传入图片的预处理,如剪裁,颜色选择等等

比如

transform_t = transforms.Compose([
transforms.Resize([64, 64]),
transforms.Grayscale(num_output_channels=1),
transforms.ToTensor()]
)

具体参数可以上网查看

在之后用DataLodar处理后虽然的确有Shuffle的参数,但是却只是在一个小批次内进行打乱,原本是按照类别存储的,这样的话会导致很严重的过拟合,为了避免这个,我决定常识改写一下Dataset的类(主要是看起来Dataset看起来改写比较顺手...ImageFolder还没有看源码并没要对此下手)

但是Dataset需要读入一个个的训练数据的位置,怎么办呢?我就先写了一个小脚本,生成一个txt文件来存储所有数据的名称(相对路径),同时在这一步就进行打乱操作【一眼看下去甚至会发现init的classnum参数完全没用上(捂脸

import os
import numpy as np
'''
self.target 顺序存储数据集
self.DataFile 存储根目录
self.s 存储所有数据
self.label 存储所有标签及其对应的值
'''
class create_list():
def __init__(self,root,classnum=2):
self.target=open("./Data.txt",'w')
self.DataFile=root
self.s=[]
self.label={}
self.datanum=0 def create(self):
files=os.listdir(self.DataFile)
for labels in files:
tempdata=os.listdir(self.DataFile+"/"+labels)
self.label[labels]=len(self.label)
for img in tempdata:
self.datanum+=1
self.target.write(self.DataFile+"/"+labels+"/"+img+" "+labels+"\n")
self.s.append([self.DataFile+"/"+labels+"/"+img,labels]) def detail(self):
#查看数据数量以及标签对应
print(self.datanum)
print(self.label) def get_all(self):
#查看所有数据
print(self.s) def get_root(self):
#获得根目录
return self.DataFile def shuffle(self):
#获得打乱的存储txt
shuffle_file=open("./Shuffle_Data.txt",'w')
temp=self.s
np.random.shuffle(temp)
for i in temp:
shuffle_file.write(i[0]+" "+str(i[1])+"\n")
return self.DataFile+"/Shuffle_Data.txt" def label_id(self,label):
#获得该标签对应的值
return self.label[label]

数据集的存储方式上的要求跟之前的ImageFolder一样

最终会生成一个这样的txt文件



数据集来源于某x光胸片判断...

而Shuffle操作就是为了生成打乱后的txt文件,我写的比较简单粗暴...先将就看吧,生成后大概就是这个样子



至少真正的做到打乱数据了

完成这个以后,就可以用此来帮助DataLodar了

接下来的代码或许比较辣眼睛...但是事实证明是有用的,但是可能Python技巧不太熟练所以就会显得很生涩...

我重现的Dataset类:

from PIL import Image
import torch class cDataset(torch.utils.data.Dataset):
def __init__(self, datatxt, root="", transform=None, target_transform=None, LabelDic=None):
super(cDataset,self).__init__()
files = open(root + "/" + datatxt, 'r')
self.img=[]
for i in files:
i = i.rstrip()
temp = i.split()
if LabelDic!=None:
self.img.append((temp[0],LabelDic[temp[1]]))
else:
self.img.append((temp[0],temp[0])) self.transform = transform
self.target_transform = target_transform def __getitem__(self, index):
files, label = self.img[index]
img = Image.open(files).convert('RGB')
if self.transform is not None:
img = self.transform(img)
return img,label def __len__(self):
return len(self.img)

其实直接看就能大概看明白,主要也就是要实现类里面的几个方法

class cDataset(torch.utils.data.Dataset):
def __init__():
def __getitem__(self, index):
def __len__(self):

其中getitm类似一次次的取出数据,len就是返回数据集数目

其中init的参数我做了稍许调整,由于我之前的txt内标签是字符串,而为了能让对应生成的tag是所要求的,可以传入一个字典,如:

LabelDic={"NORMAL":0,"PNEUMONIA":1}

这样就可以在之后转化为数字的标签,onehot或者怎么怎么样了,,,

Pytorch数据集读入——Dataset类,实现数据集打乱Shuffle的更多相关文章

  1. 『计算机视觉』Mask-RCNN_训练网络其一:数据集与Dataset类

    Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习 『计算机视觉』Mask-RCNN_项目文档翻译 『计算机视觉』Mask-RCNN_推断网络其一:总览 『计算机视觉』M ...

  2. pytorch加载语音类自定义数据集

    pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.u ...

  3. MindSpore数据集mindspore::dataset

    MindSpore数据集mindspore::dataset ResizeBilinear #include <image_process.h> bool ResizeBilinear(L ...

  4. 镶嵌数据集 Mosaic Dataset 的常见数据组织方式

    镶嵌数据集是ESRI公司推出一种用于管理海量影像数据的数据模型,定义在GeoDatabase数据模型中. 它的常见数据组织方式有两种: 1. 源镶嵌数据集 Source Mosaic Dataset ...

  5. 以Network Dataset(网络数据集)方式实现的最短路径分析

    转自原文 以Network Dataset(网络数据集)方式实现的最短路径分析 构建网络有两种方式,分别是网络数据集NetworkDataset和几何网络Geometric Network,这个网络结 ...

  6. Pytorch入门上 —— Dataset、Tensorboard、Transforms、Dataloader

    本节内容参照小土堆的pytorch入门视频教程.学习时建议多读源码,通过源码中的注释可以快速弄清楚类或函数的作用以及输入输出类型. Dataset 借用Dataset可以快速访问深度学习需要的数据,例 ...

  7. PyTorch笔记之 Dataset 和 Dataloader

    一.简介 在 PyTorch 中,我们的数据集往往会用一个类去表示,在训练时用 Dataloader 产生一个 batch 的数据 https://pytorch.org/tutorials/begi ...

  8. Pandas将中文数据集转换为数值类别型数据集

    一个机器学习竞赛中,题目大意如下,本文主要记录数据处理过程,为了模型训练,第一步需要将中文数据集处理为数值类别数据集保存. 基于大数据的运营商投诉与故障关联分析 目标:原始数据集是含大量中文的xls格 ...

  9. ADO.NET之使用DataSet类更新数据库

    1.首先从数据库获得数据填充到DataSet类,该类中的表和数据库中的表相互映射. 2.对DataSet类中的表进行修改(插入,更新,删除等) 3.同步到数据库中:使用SqlDataAdapter实例 ...

随机推荐

  1. MongoDB 学习笔记之 DBRef

    DBRef: MongoDB建模有两种方式,一种是内嵌(Embed),另一种是连接(Link).内嵌比较好理解,就是字段内容是个数组,数组内再包含文档,而我们今天介绍的是另一种,称为链接DBRef.由 ...

  2. 我最推荐的一张Java后端学习路线图,Java工程师必备

    前言 学习路线图往往是学习一样技术的入门指南.网上搜到的Java学习路线图也是一抓一大把. 今天我只选一张图,仅此一图,足以包罗Java后端技术的知识点.所谓不求最好,但求最全,学习Java后端的同学 ...

  3. 【源码解析】自动配置的这些细节不知道,别说你会 springboot

    spring-boot 相对于 spring,很重要的一个特点就是自动配置,使约定大于配置思想成功落地.xxx-spring-boot-starter 一系列引导器能够开箱即用,或者只需要很少的配置( ...

  4. LeetCode初级算法--数组01:只出现一次的数字

    LeetCode初级算法--数组01:只出现一次的数字 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法.机器学习干货 csdn:https://blog.csdn. ...

  5. 禅道部署(基于Linux)

    部署步骤: 1. 查看Linux服务器是32位还是64位的 #getconf LONG_BIT 2. 禅道开源版安装包下载 下载站点1:#wget    http://sourceforge.net/ ...

  6. 渗透测试-基于白名单执行payload--Cmstp

    0x01 Cmstp简介 Cmstp安装或删除“连接管理器”服务配置文件.如果不含可选参数的情况下使用,则 cmstp 会使用对应于操作系统和用户的权限的默认设置来安装服务配置文件. 微软官方文档: ...

  7. php架构师都要会什么

    架构师的成长离不开踩坑,不断试验各种方案,各种踩坑,从小坑到大坑,逐渐归纳.另外就是多学习多交流,兼收并蓄,不用特别在意细节,观其大略,了解常见的各种东西的核心价值与短板所在.一个程序和计算系统软件体 ...

  8. WPF实现放大镜

    这是一个之前遗留的问题.wpf里面有很多很多的东西,我以前用的真的只是其中很小的一个角落都不到. 需求背景:图片来源于相机拍摄,由于对像素要求,拍出来的图像素比较高,原图尺寸为30722048,以目前 ...

  9. 2.2 C语言_实现数据容器vector(排序功能)

    上一节我们说到我们己经实现了一般Vector可以做到的自动扩充,告诉随机存取,那么现在我们需要完成vector的一个排序的功能. 排序算法我们网上一百度哇~~!很常见的就有8大排序算法: 1.选择排序 ...

  10. The All-in-One Note

    基础 操作系统 I/O 模型 阻塞式 I/O 模型(blocking I/O) 描述:在阻塞式 I/O 模型中,应用程序在从调用 recvfrom 开始到它返回有数据报准备好这段时间是阻塞的,recv ...