使用Keras训练大规模数据集

官方提供的.flow_from_directory(directory)函数可以读取并训练大规模训练数据，基本可以满足大部分需求。但是在有些场合下，需要自己读取大规模数据以及对应标签，下面提供一种方法。

步骤0：导入相关

import random

import numpy as np

from keras.preprocessing.image import load_img,img_to_array

from keras.preprocessing.image import ImageDataGenerator

from keras.models import Model

步骤1：准备数据

#训练集样本路径

train_X = ["train/cat_1.jpg",

           "train/cat_2.jpg",

           "train/cat_3.jpg",

           "train/dog_1.jpg",

           "train/dog_2.jpg",

           "train/dog_3.jpg"]

#验证集样本路径

val_X =   ["val/cat_1.jpg",

           "val/cat_2.jpg",

           "val/cat_3.jpg",

           "val/dog_1.jpg",

           "val/dog_2.jpg",

           "val/dog_3.jpg"]

# 根据图片路径获取图片标签

def get_img_label(img_paths):

    img_labels = []

    for img_path in img_paths:

        animal = img_path.split("/")[-1].split('_')[0]

        if animal=='cat':

            img_labels.append(0)

        else:

            img_labels.append(1)

    return img_labels 

# 读取图片

def load_batch_image(img_path, train_set = True, target_size=(224, 224)):

    im = load_img(img_path, target_size=target_size)

    if train_set:

        return img_to_array(im) #converts image to numpy array

    else:

        return img_to_array(im)/255.0

# 建立一个数据迭代器

def GET_DATASET_SHUFFLE(X_samples, batch_size, train_set = True):

    random.shuffle(X_samples)

    batch_num = int(len(X_samples) / batch_size)

    max_len = batch_num * batch_size

    X_samples = np.array(X_samples[:max_len])

    y_samples = get_img_label(X_samples)

    print(X_samples.shape)

    X_batches = np.split(X_samples, batch_num)

    y_batches = np.split(y_samples, batch_num)

    for i in range(len(X_batches)):

        if train_set:

            x = np.array(list(map(load_batch_image, X_batches[i], [True for _ in range(batch_size)])))

        else:

            x = np.array(list(map(load_batch_image, X_batches[i], [False for _ in range(batch_size)])))

        #print(x.shape)

        y = np.array(y_batches[i])

        yield x,y

步骤2：对训练数据进行数据增强处理

train_datagen = ImageDataGenerator(

    rescale=1. / 255,

    rotation_range=10,

    width_shift_range=0.2,

    height_shift_range=0.2,

    shear_range=0.2,

    zoom_range=0.2,

    horizontal_flip=True)

步骤3：定义模型

model = Model(...)

步骤4：模型训练

n_epoch = 12

batch_size = 16

for e in range(n_epoch):

    print("epoch", e)

    batch_num = 0

    loss_sum=np.array([0.0,0.0])

    for X_train, y_train in GET_DATASET_SHUFFLE(train_X, batch_size, True): # chunks of 100 images

        for X_batch, y_batch in train_datagen.flow(X_train, y_train, batch_size=batch_size): # chunks of 32 samples

            loss = model.train_on_batch(X_batch, y_batch)

            loss_sum += loss

            batch_num += 1

            break #手动break

        if batch_num%200==0:

            print("epoch %s, batch %s: train_loss = %.4f, train_acc = %.4f"%(e, batch_num, loss_sum[0]/200, loss_sum[1]/200))

            loss_sum=np.array([0.0,0.0])

    res = model.evaluate_generator(GET_DATASET_SHUFFLE(val_X, batch_size, False),int(len(val_X)/batch_size))

    print("val_loss = %.4f, val_acc = %.4f: "%( res[0], res[1]))

    model.save("weight.h5")

另外，如果在训练的时候不需要做数据增强处理，那么训练就更加简单了，如下：

model.fit_generator(

  GET_DATASET_SHUFFLE(train_X, batch_size, True),

  epochs=10,

  steps_per_epoch=int(len(train_X)/batch_size))

参考文献：

Training on Large Scale Image Datasets with Keras

使用Keras训练大规模数据集的更多相关文章

Hinton胶囊网络后最新研究：用“在线蒸馏”训练大规模分布式神经网络
Hinton胶囊网络后最新研究:用“在线蒸馏”训练大规模分布式神经网络朱晓霞发表于目标检测和深度学习订阅 457 广告关闭 11.11 智慧上云云服务器企业新用户优先购,享双11同等价格立即抢购 ...
Fast RCNN 训练自己数据集 (1编译配置)
FastRCNN 训练自己数据集 (1编译配置) 转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang-loves-baiyan/ https:/ ...
使用caffe训练mnist数据集 - caffe教程实战（一）
个人认为学习一个陌生的框架,最好从例子开始,所以我们也从一个例子开始. 学习本教程之前,你需要首先对卷积神经网络算法原理有些了解,而且安装好了caffe 卷积神经网络原理参考:http://cs231 ...
实践详细篇-Windows下使用VS2015编译的Caffe训练mnist数据集
上一篇记录的是学习caffe前的环境准备以及如何创建好自己需要的caffe版本.这一篇记录的是如何使用编译好的caffe做训练mnist数据集,步骤编号延用上一篇 <实践详细篇-Windows下 ...
keras训练cnn模型时loss为nan
keras训练cnn模型时loss为nan 1.首先记下来如何解决这个问题的:由于我代码中 model.compile(loss='categorical_crossentropy', optimiz ...
使用py-faster-rcnn训练VOC2007数据集时遇到问题
使用py-faster-rcnn训练VOC2007数据集时遇到如下问题: 1. KeyError: 'chair' File "/home/sai/py-faster-rcnn/tools/ ...
Keras下载的数据集以及预训练模型保存在哪里
Keras下载的数据集在以下目录中: root\\.keras\datasets Keras下载的预训练模型在以下目录中: root\\.keras\models 在win10系统来说,用户主目录是: ...
YOLOV4在linux下训练自己数据集（亲测成功）
最近推出了yolo-v4我也准备试着跑跑实验看看效果,看看大神的最新操作这里不做打标签工作和配置cuda工作,需要的可以分别百度搜索 VOC格式数据集制作,cuda和cudnn配置我们直接利用 ...
Scaled-YOLOv4 快速开始，训练自定义数据集
代码: https://github.com/ikuokuo/start-scaled-yolov4 Scaled-YOLOv4 代码: https://github.com/WongKinYiu/S ...

随机推荐

第十六次 ccf 201903-2 二十四点
题意: 计算数学表达式的值, 数学表达式的定义: 4个[0-9]表示数字的字符 ,3个[+-x/]表示运算的字符可以用正则为: ([0-9][+-x/]){3}[0-9] 例如: 5+2/1x3 2 ...
零基础学习python（2）
再讲新知识之前,先将一些之前没提的东西再介绍一下: (1) 命令行模式在Windows开始菜单选择“命令提示符”(或者是在搜索栏中输入“cmd”),就进入到命令行模式,它的提示符类似C:\>: ...
Spring EnableWebMvc vs WebMvcConfigurationSupport
EnableWebMvc vs WebMvcConfigurationSupport spring doc解释 WebMvcConfigurationSupport: This is the main ...
[USACO09HOL]假期绘画Holiday Painting
观察到列数只有15,可以想到对于每一列维护一颗线段树 sum表示该区间与目标矩阵中该区间相同元素个数 lazy表示该区间应被修改成什么颜色 g即目标矩阵中该区间白色格子的个数显然一个区间的sum=区 ...
ImportError: dynamic module does not define module export function (PyInit__sqlite3)
使用python3.6 中的django-admin创建项目的时候报错 ImportError: dynamic module does not define module export functi ...
芯灵思Sinlinx A64开发板Linux内核定时器编程
开发平台芯灵思Sinlinx A64 内存: 1GB 存储: 4GB 开发板详细参数 https://m.tb.cn/h.3wMaSKm 开发板交流群 641395230 Linux 内核定时器是内 ...
MUI在项目中使用时遇到的问题的个人分享
picker 添加年插件问题总结 1. 取消按钮点击事件无法获取可以获取到取消按钮标签和确定按钮标签但是只能获取去顶按钮事件,取消点击事件无法获取通过判断picker的display状态也不能确 ...
markdown特殊符号语法
符号说明对应编码 & AND符号 & < 小于 < > 大于 > _ ...
RK3399/NanoPC-T4开发板低级格式化SD卡，恢复SD卡和TF卡方法
恢复SD卡和TF卡方法:Windows下运行:HDDLLF.4.40.exe执行Low-Level format然后拔插,重新插在win10下提示格式化,则执行格式化操作,即可恢复. 应用场合:使用 ...
ROS tf
一.节点中使用(cpp,python) 1. ros wiki 提供的tutorials 2. https://blog.csdn.net/start_from_scratch/article/det ...

使用Keras训练大规模数据集

步骤0：导入相关

步骤1：准备数据

步骤2：对训练数据进行数据增强处理

步骤3：定义模型

步骤4：模型训练

使用Keras训练大规模数据集的更多相关文章

随机推荐

热门专题