pytorch数据加载

一、方法一
数据组织形式
dataset_name
----train
----val

from torchvision import datasets, models, transforms

# Data augmentation and normalization for training

# Just normalization for validation

data_transforms = {

    'train': transforms.Compose([

        transforms.RandomResizedCrop(224),

        transforms.RandomHorizontalFlip(),

        transforms.ToTensor(),

        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

    ]),

    'val': transforms.Compose([

        transforms.Resize(256),

        transforms.CenterCrop(224),

        transforms.ToTensor(),

        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

    ]),}

data_dir = 'hymenoptera_data'

image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),

                                          data_transforms[x])

                  for x in ['train', 'val']}

dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4,

                                             shuffle=True, num_workers=4)

              for x in ['train', 'val']}

dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}

class_names = image_datasets['train'].classes

    for epoch in range(num_epochs):

        print('Epoch {}/{}'.format(epoch, num_epochs - 1))

        print('-' * 10)

        # Each epoch has a training and validation phase

        for phase in ['train', 'val']:

            if phase == 'train':

                scheduler.step()

                model.train()  # Set model to training mode

            else:

                model.eval()   # Set model to evaluate mode

            running_loss = 0.0

            running_corrects = 0

            # Iterate over data.

            for inputs, labels in dataloaders[phase]:

                inputs = inputs.to(device)

                labels = labels.to(device)

                # zero the parameter gradients

                optimizer.zero_grad()

                # forward

                # track history if only in train

                with torch.set_grad_enabled(phase == 'train'):

                    outputs = model(inputs)

                    _, preds = torch.max(outputs, 1)

                    loss = criterion(outputs, labels)

                    # backward + optimize only if in training phase

                    if phase == 'train':

                        loss.backward()

                        optimizer.step()

                # statistics

                running_loss += loss.item() * inputs.size(0)

                running_corrects += torch.sum(preds == labels.data)

            epoch_loss = running_loss / dataset_sizes[phase]

            epoch_acc = running_corrects.double() / dataset_sizes[phase]

            print('{} Loss: {:.4f} Acc: {:.4f}'.format(

                phase, epoch_loss, epoch_acc))

            # deep copy the model

            if phase == 'val' and epoch_acc > best_acc:

                best_acc = epoch_acc

                best_model_wts = copy.deepcopy(model.state_dict())

        print()

二、方法二

自定路径+txt内写入的路径

txt内容，前面是图片路径，后面是label类别

生成txt代码

# -*-coding:utf-8-*-

"""

    @Project: googlenet_classification

    @File   : create_labels_files.py

    @Author : panjq

    @E-mail : pan_jinquan@163.com

    @Date   : 2018-08-11 10:15:28

"""

import os

import os.path

def write_txt(content, filename, mode='w'):

    """保存txt数据

    :param content:需要保存的数据,type->list

    :param filename:文件名

    :param mode:读写模式:'w' or 'a'

    :return: void

    """

    with open(filename, mode) as f:

        for line in content:

            str_line = ""

            for col, data in enumerate(line):

                if not col == len(line) - 1:

                    # 以空格作为分隔符

                    str_line = str_line + str(data) + " "

                else:

                    # 每行最后一个数据用换行符“\n”

                    str_line = str_line + str(data) + "\n"

            f.write(str_line)

def get_files_list(dir):

    '''

    实现遍历dir目录下,所有文件(包含子文件夹的文件)

    :param dir:指定文件夹目录

    :return:包含所有文件的列表->list

    '''

    # parent:父目录, filenames:该目录下所有文件夹,filenames:该目录下的文件名

    files_list = []

    for parent, dirnames, filenames in os.walk(dir):

        for filename in filenames:

            # print("parent is: " + parent)

            # print("filename is: " + filename)

            # print(os.path.join(parent, filename))  # 输出rootdir路径下所有文件（包含子文件）信息

            curr_file = parent.split(os.sep)[-1]

            if curr_file == '':

                labels = 0

            elif curr_file == '':

                labels = 1

            elif curr_file == '':

                labels = 2

            elif curr_file == '':

                labels = 3

            elif curr_file == '':

                labels = 4

            elif curr_file == '':

                labels = 5

            elif curr_file == '':

                labels = 6

            elif curr_file == '':

                labels = 7

            elif curr_file == '':

                labels = 8

            files_list.append([os.path.join(curr_file, filename), labels])

    return files_list

if __name__ == '__main__':

    train_dir = r'F:\WU_work\guandao\data\guandao20190904_10\train'

    train_txt = r'F:\WU_work\guandao\data\guandao20190904_10/train.txt'

    train_data = get_files_list(train_dir)

    write_txt(train_data, train_txt, mode='w')

    val_dir = r'F:\WU_work\guandao\data\guandao20190904_10\validation'

    val_txt = r'F:\WU_work\guandao\data\guandao20190904_10/val.txt'

    val_data = get_files_list(val_dir)

    write_txt(val_data, val_txt, mode='w')

    # 构建MyDataset实例 img_path是一种可在txt图片路径前面加入的一种机制
　　#img_path是训练集或验证集路径，如F:\WU_work\guandao\data\guandao20190904_10\train

    train_data = MyDataset(img_path = '', txt_path=train_txt_path, transform=trainTransform)

    valid_data = MyDataset(img_path = '', txt_path=valid_txt_path, transform=validTransform)

数据加载

# -------------------------------------------- step 1/5 : 加载数据 -------------------------------------------

    train_txt_path = './Data/train.txt'

    valid_txt_path = './Data/valid.txt'

    # 数据预处理设置

    normMean = [0.4948052, 0.48568845, 0.44682974]

    normStd = [0.24580306, 0.24236229, 0.2603115]

    normTransform = transforms.Normalize(normMean, normStd)

    trainTransform = transforms.Compose([

        transforms.Resize(224),

        transforms.RandomCrop(224, padding=4),

        transforms.ToTensor(),

        normTransform

    ])

    validTransform = transforms.Compose([

        transforms.ToTensor(),

        normTransform

    ])

    # 构建MyDataset实例 img_path是一种可在txt图片路径前面加入的一种机制

    train_data = MyDataset(img_path = '', txt_path=train_txt_path, transform=trainTransform)

    valid_data = MyDataset(img_path = '', txt_path=valid_txt_path, transform=validTransform)

    # 构建DataLoder

    train_loader = torch.utils.data.DataLoader(dataset=train_data, batch_size=16, shuffle=True)

    valid_loader = torch.utils.data.DataLoader(dataset=valid_data, batch_size=16)

train_loader 是迭代器，每次返回图片和对应的label

pytorch数据加载的更多相关文章

PyTorch数据加载处理
PyTorch数据加载处理 PyTorch提供了许多工具来简化和希望数据加载,使代码更具可读性. 1.下载安装包 scikit-image:用于图像的IO和变换 pandas:用于更容易地进行csv解 ...
pytorch数据加载器
class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, ...
PyTorch 数据集类和数据加载类的一些尝试
最近在学习PyTorch, 但是对里面的数据类和数据加载类比较迷糊,可能是封装的太好大部分情况下是不需要有什么自己的操作的,不过偶然遇到一些自己导入的数据时就会遇到一些问题,因此自己对此做了一些小实 ...
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler 目录 [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampl ...
[源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader
[源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 目录 [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 0x00 摘要 0x01 ...
ScrollView嵌套ListView,GridView数据加载不全问题的解决
我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...
python多种格式数据加载、处理与存储
多种格式数据加载.处理与存储实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
flask+sqlite3+echarts3+ajax 异步数据加载
结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...
Entity Framework关联查询以及数据加载（延迟加载，预加载）
数据加载分为延迟加载和预加载 EF的关联实体加载有三种方式:Lazy Loading,Eager Loading,Explicit Loading,其中Lazy Loading和Explicit Lo ...

随机推荐

python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
分布式事务：Saga模式
1 Saga相关概念 1987年普林斯顿大学的Hector Garcia-Molina和Kenneth Salem发表了一篇Paper Sagas,讲述的是如何处理long lived transac ...
linux memcached 的安装
linux memcached安装yum -y install libevent libevent-deve yum list memcached yum -y install memcached m ...
封装axios，带请求头和响应头
import axios from "axios"; import qs from "qs"; //处理参数 import router from '../ro ...
15 Android系统安全（简要）
Android的用户和第三方软件,Android组件和数据安全手机root后的问题:1.系统不稳定,2.病毒入侵,3.数据泄露 Root原理: Root分两类:1.临时root,2.永久root R ...
js修改页面标题 title
如果对你有帮助的话麻烦点个[推荐]~最好还可以follow一下我的GitHub~感谢观看! /* * *添加首页description元数据meta标签 *创建一个meta元素,sName为该meta ...
捕获Ctrl + C中断优雅的退出程序 golang
捕获Ctrl + C中断优雅的退出程序 Gracefully terminate a program in Go os/signal 来捕获系统中断等信号 // Notify方法将signal发送到 ...
GeoGebra 代数输入的提示和技巧
GeoGebra是Mac平台上一款自由且跨平台的动态数学软件,提供各级教育使用,包含了几何.代数.表格.图形.统计和微积分,集中在一个容易使用的软件. 确认表达式始终按 Enter 键确认您 ...
linux命令实现在当前文件夹下面模糊搜索文件
在当前文件中查找包含的字符串 find . -name "*.txt" | xargs grep 'abc' ,例如:查找txt文件中包含字符串a的字符串
jmap错误：unknown CollectedHeap type : class sun.jvm.hotspot.gc_interface.CollectedHeap
原文:https://www.jianshu.com/p/0e5d8db8ed5e 错误场景今天使用jmap -heap命令查看堆的详细信息报错. [root@instance-2gak1pfv d ...

pytorch数据加载

pytorch数据加载的更多相关文章

随机推荐

热门专题