pytorch（07）数据模型的读取

DataLoader与Dataset

pytorch中的数据读取机制

graph TB
DataLoader --> DataLoaderIter
DataLoaderIter --> Sampler
Sampler --> Index
Sampler --> DatasetFetcher
Index -->DatasetFetcher
DatasetFetcher -->Dataset
Dataset --> getitem
getitem -->img,label
img,label --> collate_fn
collate_fn --> BatchData

人民币二分类

可以把人民币当成自变量x，类别是y。

数据模块可以分为
数据收集->原始样本和标签，img,label
数据划分->划分train,valid,test。验证集来调整过拟合
数据读取->数据读取,DataLoader

DataLoader分为两个子模块，分别是

Sampler生成索引，样本的序号index
DataSet根据索引，读取img和label

数据预处理->transforms
DataLoader与Dataset

DataLoader和Dataset是数据读取的核心
DataLoader

DataLoader(dataset,batch_size=1,shuffle=False,sampler=None,num_workers=0,collate_fn=None,pin_memory=False,drop_last=False,timeout=0,work_init_fn=None,multiprocessing_context=None)

主要是构建可迭代的数据转载器

dataloader,我们在训练的时候在每一次循环中，就是从dataset中读取每一个batch_size大小的数据

dataset:Dataset类，决定数据从哪读取及如何读取
batchsize:批大小
num_works：是否多进程读取数据
shuffle:每个epoch是否乱序
drop_last:当样本数不能被batchsize整除时，是否舍弃最后一批数据

epoch,iteration,batchsize

Epoch:所有训练样本都已输入到模型中，称为一个Epoch
Iteration:一批样本输入到模型中，称为一个Iteration
Batchsize:批大小，决定一个Epoch有多少个Iteration

样本总数：80，BatchSize：8

1 Epoch = 10 Iteration

如果样本总数不能被整除

样本总数：87，Batchsize：8

1 Epoch = 10 Iteration,drop_last=True
1 Epoch = 11 Iteration,drop_last=False

Dataset

torch.utils.data.Dataset

class Dataset(object):

def getitem(self,index):

raise NotImplementedError

def add(self,other):

return ConcatDataset([self,other])

功能：Dataset抽象类，所有自定义的Dataset需要继承，并复写

__getitem__()

getitem: 接收一个索引，返回一个样本

数据读取机制

读哪些数据，在每一个iteration中读取哪些数据？
从哪读数据，在硬盘中如何读取？
怎么读数据？

import os

import random

import shutil

BASE_DIR = os.path.dirname(os.path.abspath(__file__))

def makedir(new_dir):

    if not os.path.exists(new_dir):

        os.makedirs(new_dir)

if __name__ == '__main__':

    DATA_DIR = os.path.abspath(os.path.join(BASE_DIR, ".", "RMB_data"))

    SPLIT_DIR = os.path.abspath(os.path.join(BASE_DIR, ".", "rmb_split"))

    TRAIN_DIR = os.path.join(SPLIT_DIR, "train")

    VALID_DIR = os.path.join(SPLIT_DIR, "valid")

    TEST_DIR = os.path.join(SPLIT_DIR, "test")

    if not os.path.exists(DATA_DIR):

        raise Exception("\n{}不存在，请下载RMBdata放到{}路径下".format(DATA_DIR, os.path.dirname(DATA_DIR)))

    train_pct = 0.8

    valid_pct = 0.1

    test_pct = 0.1

    for paths, dirs, files in os.walk(DATA_DIR):

        for sub_dirs in dirs:

            imgs = os.listdir(os.path.join(paths, sub_dirs))

            imgs = list(filter(lambda x: x.endswith('.jpg'),imgs))

            # print(imgs)

            random.shuffle(imgs)

            # print(imgs)

            imgs_count = len(imgs)

            # print(imgs_count)

            train_pic = int(train_pct*imgs_count)

            valid_pic = int((valid_pct+train_pct)*imgs_count)

            if imgs_count == 0 :

                print("{}目录下，无图片，请检查".format(os.path.join(paths, sub_dirs)))

                import sys

                sys.exit(0)

            for i in range(imgs_count):

                if i < train_pic :

                    out_dir = os.path.join(TRAIN_DIR, sub_dirs)

                elif i < valid_pic :

                    out_dir = os.path.join(VALID_DIR, sub_dirs)

                else:

                    out_dir = os.path.join(TEST_DIR, sub_dirs)

                makedir(out_dir)

                target_path = os.path.join(out_dir, imgs[i])

                src_path = os.path.join(DATA_DIR, sub_dirs, imgs[i])

                shutil.copy(src_path, target_path)

            print("Class:{}, train:{}, valid:{}, test:{}".format(sub_dirs, train_pic, valid_pic-train_pic, imgs_count-valid_pic-train_pic))

            print("已在{}划分好".format(out_dir)

Class:1, train:80, valid:10, test:-70

已在D:\pythonProject\04_DataLoader\rmb_split\test\1划分好

Class:100, train:80, valid:10, test:-70

已在D:\pythonProject\04_DataLoader\rmb_split\test\100划分好

import numpy as np

import torch

import os

import random

from PIL import Image

from torch.utils.data import Dataset

from torch.utils.data import DataLoader

import torchvision.transforms as transforms

BASE_PATH = os.path.abspath(__file__)

# print(BASE_PATH)

base_path = os.path.abspath(os.path.join(BASE_PATH, '..', 'TestDir'))

# print(base_path)

data_dir = os.path.abspath(os.path.join(BASE_PATH, '..', 'RMB_data'))

random.seed(1)

# print(data_dir)

test_label = {"1": 0, "100": 1}

data_info = list()

for path, dirs, files in os.walk(base_path):

    for sub_dir in dirs:

        # print(sub_dir)

        sub_dirlist = os.listdir(os.path.join(base_path, sub_dir))

        pynames = list(filter(lambda y: y.endswith('.jpg'), sub_dirlist))

        # print(pynames)

        # print(test_label[sub_dir])

        for pyname in pynames:

            datainfo_dir = os.path.join(base_path, sub_dir, pyname)

            t_label=test_label[sub_dir]

            t_label = int(t_label)

            data_info.append((datainfo_dir, t_label))

# print(data_info)

new_data_info = list()

for data_info_e in data_info:

    x_dir, x_label = data_info_e

    x_img = Image.open(x_dir).convert('RGB')

    ok_transform = transforms.Compose([

        transforms.Resize((32, 32)),

        transforms.RandomCrop(32, padding=4),

        transforms.ToTensor(),

    ])

    x_img = ok_transform(x_img)

    new_data_info.append((x_img,x_label))

# print(len(new_data_info[0][0]))

print(len(new_data_info))

newdataLoader = DataLoader(new_data_info,batch_size=14, shuffle=True)

for ids, data in enumerate(newdataLoader):

    print(ids)

pytorch（07）数据模型的读取的更多相关文章

pytorch（08）数据模型的读取（2）
import numpy as np import torch import os import random from PIL import Image from torch.utils.data ...
[Pytorch]PyTorch Dataloader自定义数据读取
整理一下看到的自定义数据读取的方法,较好的有一下三篇文章, 其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了,所以需要根据数据集随机应变. 所 ...
【小白学PyTorch】16 TF2读取图片的方法
[新闻]:机器学习炼丹术的粉丝的人工智能交流群已经建立,目前有目标检测.医学图像.NLP等多个学术交流分群和水群唠嗑的总群,欢迎大家加炼丹兄为好友,加入炼丹协会.微信:cyx645016617. 参考 ...
pytorch实现花朵数据集读取
import os from PIL import Image from torch.utils import data import numpy as np from torchvision imp ...
Pytorch使用PIL的读取单张图片并显示
1. Image.open(fp, mode="r") 调用此方法需要引入头文件:from PIL import Image. 参数说明: fp:图片路径,可为绝对路径或相对路径. ...
【转载】PyTorch系列 (二)：pytorch数据读取
原文:https://likewind.top/2019/02/01/Pytorch-dataprocess/ Pytorch系列: PyTorch系列(一) - PyTorch使用总览 PyTorc ...
PyTorch使用总览
PyTorch使用总览 https://blog.csdn.net/u014380165/article/details/79222243 深度学习框架训练模型时的代码主要包含数据读取.网络构建和其他 ...
pytorch的torch.utils.data.DataLoader认识
PyTorch中数据读取的一个重要接口是torch.utils.data.DataLoader,该接口定义在dataloader.py脚本中,只要是用PyTorch来训练模型基本都会用到该接口, 该接 ...
PyTorch源码解读之torch.utils.data.DataLoader(转)
原文链接 https://blog.csdn.net/u014380165/article/details/79058479 写得特别好!最近正好在学习pytorch,学习一下! PyTorch中数据 ...

随机推荐

Codeforces Round #682 (Div. 2) B. Valerii Against Everyone (思维)
题意:给你一组数\(b\),对于每个\(b_i\),相对应的\(a_i=2^{b_i}\),问你是否能找出两个不相交的区间,使得两个区间的\(a_i\)的元素和相等. 题解:对于任意一个\(2^k\) ...
Gym 100803G Flipping Parentheses
题目链接:http://codeforces.com/gym/100803/attachments/download/3816/20142015-acmicpc-asia-tokyo-regional ...
fzu2200 cleaning
Problem Description N个人围成一圈在讨论大扫除的事情,需要选出K个人.但是每个人与他距离为2的人存在矛盾,所以这K个人中任意两个人的距离不能为2,他们想知道共有多少种方法. In ...
L2-013 红色警报 (25分) 并查集复杂度
代码: 1 /* 2 这道题也是简单并查集,并查集复杂度: 3 空间复杂度为O(N),建立一个集合的时间复杂度为O(1),N次合并M查找的时间复杂度为O(M Alpha(N)), 4 这里Alpha是 ...
AWS注册到连接
1. 注册AWS账号 https://www.cnblogs.com/cmt/p/13912814.html 2.注册完成之后,选择实例 Ubuntu,下载xxx.pem文件,查看实例得到ip 比如我 ...
npm publish bug & solution
npm publish bug & solution npm ERR! Unexpected token < in JSON at position 0 while parsing ne ...
PDF transform to PPT online & free
PDF transform to PPT online & free > Speaker Deck Share Presentationswithout the Mess Speaker ...
How to build a sortable table in native js?
How to build a sortable table in native/vanilla js? H5 DnD https://developer.mozilla.org/zh-CN/docs/ ...
how to using js to realize notes feature on the website
how to using js to realize notes feature on the website js & notes demos https://medium.com/brow ...
Paint Tool SAI
Paint Tool SAI PC 绘画工具 https://en.wikipedia.org/wiki/Paint_Tool_SAI refs https://www.systemax.jp/en/ ...

pytorch（07）数据模型的读取

DataLoader与Dataset

数据读取机制

pytorch（07）数据模型的读取的更多相关文章

随机推荐

热门专题