torch_13_自定义数据集实战

1.将图片的路径和标签写入csv文件并实现读取

  # 创建一个文件，包含image，存放方式：label pokemeon\\mew\\0001.jpg,0

     def load_csv(self,filename):

         if not os.path.exists(os.path.join(self.root,filename)):

             images = [] # 将所有的信息组成一个列表，类别信息通过中间的一个路径判断

             for name in self.name2label.keys():

                 # pokemeon\\mew\\0001.jpg mew可以通过字典查看其类别

                 images += glob.glob(os.path.join(self.root,name,'*.png'))#img的完整路径

                 images += glob.glob(os.path.join(self.root,name,'*.jpg'))

             random.shuffle(images)

             with open(os.path.join(self.root,filename),'w') as f:

                 writer = csv.writer(f)

                 for img in images:

                     name = img.split(os.sep)

                     label = self.name2label[name[-2]]

                     writer.writerow([img,label])

          # 从csv中读取文件

         images, labels = [], []

         with open(os.path.join(self.root,filename),'r') as f:

             reader = csv.reader(f)

             for row in reader:

                 img,label = row

                 label = int(label)

                 images.append(img)

                 labels.append(label)

         assert len(images) == len(labels) # 保证数据长度一致
　　　　　　 return images,labels

2.加载自定义数据集

 """

 自定义数据集

 image_resize

 data argumentation(数据增强):Rotate,crop

 normalize:mean,std

 ToTensor

 """

 import torch

 import os,glob

 import random,csv

 from torch.utils.data import Dataset,DataLoader

 from torchvision import transforms

 from PIL import Image

 import visdom

 class Pokemon(Dataset):

     def __init__(self,root,resize,mode):

         super(Pokemon,self).__init__()

         self.root = root

         self.resize = resize

         self.name2label = {}

         for name in os.listdir(os.path.join(root)): #把文件和dir都会加载近来

             if not sorted(os.path.isdir(os.path.join(root,name))):#排序后，文件夹顺序固定了

                 continue

             self.name2label[name] = len(self.name2label.keys())

         # name2label:{文件夹名，类别编号}

         # 创建一个文件，包含image，存放方式：label pokemeon\\mew\\0001.jpg,0

         self.images, self.labels = self.load_csv('images.csv')

         # 对数据进行裁剪，mode：train-0.6，validation-0.2，test-0.2数据量是不同的

         if mode == 'train':

             self.images = self.images[:,int(len(self.images)*0.6)]

             self.labels = self.labels[:,int(len(self.images)*0.6)]

         elif mode == 'val':

             self.images = self.images[int(len(self.images)*0.6):int(len(self.images)*0.8)]

             self.labels = self.labels[int(len(self.labels)*0.6):int(len(self.labels)*0.8)]

         else:

             self.images = self.images[int(len(self.images) * 0.8):]

             self.labels = self.labels[int(len(self.labels) * 0.8):]

     def load_csv(self,filename):

         if not os.path.exists(os.path.join(self.root,filename)):

             images = [] # 将所有的信息组成一个列表，类别信息通过中间的一个路径判断

             for name in self.name2label.keys():

                 # pokemeon\\mew\\0001.jpg mew可以通过字典查看其类别

                 images += glob.glob(os.path.join(self.root,name,'*.png'))#img的完整路径

                 images += glob.glob(os.path.join(self.root,name,'*.jpg'))

             random.shuffle(images)

             with open(os.path.join(self.root,filename),'w') as f:

                 writer = csv.writer(f)

                 for img in images:

                     name = img.split(os.sep)

                     label = self.name2label[name[-2]]

                     writer.writerow([img,label])

          # 从csv中读取文件

         images, labels = [], []

         with open(os.path.join(self.root,filename),'r') as f:

             reader = csv.reader(f)

             for row in reader:

                 img,label = row

                 label = int(label)

                 images.append(img)

                 labels.append(label)

         assert len(images) == len(labels) # 保证数据长度一致

         return images,labels

     def __len__(self):

         return len(self.images)

     def __getitem__(self, idx):

         # idx是[0-len(self.images]

         # self.images，self.label

         # img:pokemeon\\mew\\0001.jpg(这是一个路径)要转变成img数据

         # label:是数字

         img, label = self.images[idx], self.labels[idx]

         tf = transforms.Compose([

             lambda x:Image.open(x).convert('RGB'),# string path -> img data

             transforms.Resize(int(self.resize*1.25), int(self.resize*1.25)),

             transforms.Randomrotation(15), # 旋转度数

             transforms.CenterCrop(self.resize),#中心裁剪，保留resize大小

             transforms.ToTensor(),

             transforms.Normalize(mean=[0.485,0.456,0.406],

                                  std=[0.229,0.224,0.225])  # 归一化之后，范围为-1~1，之前的图片范围为0~1

             ])

         img = tf(img)  # 将path转换成数据

         label = torch.tensor(label)  # 将变量label转换成tensor

         return img,label

     def denormalize(self,x_hat):

         mean=[0.485,0.456,0.406]

         std=[0.229,0.224,0.225]

         # x:[c,h,w]

         # x_hat = (x-mean)/std

         # maen[3]->[3,1,1]

         mean = torch.tensor(mean).unsqueeze(1).unsqueeze(1)

         std = torch.tensor(std).unsqueeze(1).unsqueeze(1)

         x = x_hat * std+mean

         return x

 def main():

     import torchvision

     vis = visdom.Visdom()

     """

     如果存储比较规范的话，可以使用下面简单的代码加载数据集,文件夹的标签从0开始编码

     tf = transforms.Compose([

         transforms.Resize((64,64)),

         transforms.ToTensor()

     ])

     db = torchvision.datasets.ImageFolder('./pokemon',transform=tf)

     loader = DataLoader(db,batch_size=32,shuffle=True)

     print(db.class_to_idx) #查看类标签

     """

     db = Pokemon('./pokemon', 224, 'train') # 根据idx，返回一个

     x,y = next(iter(db))

     print('sample:',x.shape,y.shape)

     #可视化

     vis.image(db.denormalize(x),win='sample_x',opts=dict(title = 'sample_x'))

     # 加载一批

     loader = DataLoader(db,batch_size = 32,shuffle=True,num_workers=8 )

     for x,y in loader:

         vis.images(db.denormalize(x), nrow=8, win='batch',opts=dict(title='batch'))

         vis.text(str(y.numpy()),win='label',opts=dict(title='batch-y'))

 if __name__ == '__main__':

     main()

小结：

在加载自定义数据集时，一般步骤

1.定义一个类继承Dataset

2.在类中读取数据集（图片的路径），重写len函数，和getitem函数

在len函数中返回数据集的长度

在getitem函数中，处理一张图片，单个图片路径转换成图片数据（包括transform转换），返回该图片数据和标签

3，将处理好的数据集（均为张量）放入DataLoader中，进行分批

loader = DataLoader(db,batch_size = 32,shuffle=True,num_workers=8 )

4.训练时通过enumerate遍历每个batchsize

torch_13_自定义数据集实战的更多相关文章

SpringBoot2.x过滤器Filter和使用Servlet3.0配置自定义Filter实战
补充:SpringBoot启动日志 1.深入SpringBoot2.x过滤器Filter和使用Servlet3.0配置自定义Filter实战(核心知识) 简介:讲解SpringBoot里面Filter ...
Tensorflow2 自定义数据集图片完成图片分类任务
对于自定义数据集的图片任务,通用流程一般分为以下几个步骤: Load data Train-Val-Test Build model Transfer Learning 其中大部分精力会花在数据的准备 ...
pytorch加载语音类自定义数据集
pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.u ...
MMDetection 快速开始，训练自定义数据集
本文将快速引导使用 MMDetection ,记录了实践中需注意的一些问题. 环境准备基础环境 Nvidia 显卡的主机 Ubuntu 18.04 系统安装,可见制作 USB 启动盘,及系统安装 ...
Scaled-YOLOv4 快速开始，训练自定义数据集
代码: https://github.com/ikuokuo/start-scaled-yolov4 Scaled-YOLOv4 代码: https://github.com/WongKinYiu/S ...
PyTorch 自定义数据集
准备数据准备 COCO128 数据集,其是 COCO train2017 前 128 个数据.按 YOLOv5 组织的目录: $ tree ~/datasets/coco128 -L 2 /home ...
Android自定义View实战（SlideTab－可滑动的选择器）
转载请标明出处: http://blog.csdn.net/xmxkf/article/details/52178553 本文出自:[openXu的博客] 目录: 初步分析重写onDraw绘制重写o ...
高级UI晋升之自定义view实战（七）
更多Android高级架构进阶视频学习请点击:https://space.bilibili.com/474380680本篇文章自定义ViewGroup实现瀑布流效果来进行详解dispatchTouch ...
自定义View实战
PS:上一篇从0开始学自定义View有博友给我留言说要看实战,今天我特意写了几个例子,供大家参考,所画的图案加上动画看着确实让人舒服,喜欢的博友可以直接拿到自己的项目中去使用,由于我这个写的是demo ...

随机推荐

11-Django站点管理
站点管理内容发布的部分由网站的管理员负责,包括查看.添加.修改.删除数据开发这些重复的功能是一件单调乏味.缺乏创造力的工作,为此,Django能够根据定义的模型类自动地生成管理模块在Django ...
易飞ERP API接口调用DEMO
一.使用场景: 1.需要开放ERP数据给第三方系统对接,如APP手机端开发,MES,OA等: 2.接口按现在主流开发,restful风格,传JSON数据,跨平台,不限开发工具: 3.不限易飞ERP,支 ...
Django之Django简介，开发环境搭建，项目应用创建
软件及Django框架简介软件框架一个软件框架是由其中各个软件模块组成的: 每一个模块都有特定的功能: 模块与模块之间通过相互配合来完成软件的开发. 软件框架是针对某一类软件设计问题而产生的. M ...
wpf/winform获取windows10系统颜色和主题色
Windows10开始微软在系统颜色中添加了深色,对于UWP来说很轻松就能获取到系统当前的颜色和主题色,而对于Win32应用就没有那么直观了. 在wpf中,可以通过SystemParameters.W ...
java基础(21):异常
1. 异常什么是异常?Java代码在运行时期发生的问题就是异常. 在Java中,把异常信息封装成了一个类.当出现了问题时,就会创建异常类对象并抛出异常相关的信息(如异常出现的位置.原因等). 1.1 ...
这些好用却鲜为人知的Python库，你知道多少？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 读芯术 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
ArchLinux 2019.11.01安装流程--安装基本系统
安装前的一些话本文是参考官方文档ArchLinux的Installation guide(简体中文)加实际操作编写的. 有啥都好说,转载时请注明作者,这是基本素质,也是法律要求安装是在虚拟机上进行 ...
java核心技术第二篇之数据库SQL语法
#查询products表记录SELECT * FROM products WHERE price > 2000;-- 单行注释/* 多行注释*/#创建数据库CREATE DATABASE hei ...
自学_CSS<二>
CSS CSS(层叠样式表)是用来美化页面用的,可以对页面元素进行更精细的设置,样式主要描述元素的字体颜色.背景颜色.边框等. CSS主要有元素内联.页面嵌入和外部引用三种使用方式.CSS是描述元素的 ...
qt构建错误: dependent "*.h" does not exist.
项目中需要维护一套qt工程,今天发现一个头文件名称中单词拼写错误,就改正了,结果重新构建提示: dependent "*.h" does not exist. 原因:修改了文件后, ...

torch_13_自定义数据集实战

torch_13_自定义数据集实战的更多相关文章

随机推荐

热门专题