keras训练大量数据的办法

最近在做一个鉴黄的项目，数据量比较大，有几百个G，一次性加入内存再去训练模青型是不现实的。

查阅资料发现keras中可以用两种方法解决，一是将数据转为tfrecord，但转换后数据大小会方法不好；另外一种就是利用generator，先一次加入所有数据的路径，然后每个batch的读入

# 读取图片函数

def get_im_cv2(paths, img_rows, img_cols, color_type=1, normalize=True):

    '''

    参数：

        paths：要读取的图片路径列表

        img_rows:图片行

        img_cols:图片列

        color_type:图片颜色通道

    返回:

        imgs: 图片数组

    '''

    # Load as grayscale

    imgs = []

    for path in paths:

        if color_type == 1:

            img = cv2.imread(path, 0)

        elif color_type == 3:

            img = cv2.imread(path)

        # Reduce size

        resized = cv2.resize(img, (img_cols, img_rows))

        if normalize:

            resized = resized.astype('float32')

            resized /= 127.5

            resized -= 1. 

        imgs.append(resized)

    return np.array(imgs).reshape(len(paths), img_rows, img_cols, color_type)

def get_train_batch(X_train, y_train, batch_size, img_w, img_h, color_type, is_argumentation):

    '''

    参数：

        X_train：所有图片路径列表

        y_train: 所有图片对应的标签列表

        batch_size:批次

        img_w:图片宽

        img_h:图片高

        color_type:图片类型

        is_argumentation:是否需要数据增强

    返回:

        一个generator，x: 获取的批次图片 y: 获取的图片对应的标签

    '''

    while 1:

        for i in range(0, len(X_train), batch_size):

            x = get_im_cv2(X_train[i:i+batch_size], img_w, img_h, color_type)

            y = y_train[i:i+batch_size]

            if is_argumentation:

                # 数据增强

                x, y = img_augmentation(x, y)

            # 最重要的就是这个yield，它代表返回，返回以后循环还是会继续，然后再返回。就比如有一个机器一直在作累加运算，但是会把每次累加中间结果告诉你一样，直到把所有数加完

            yield(np.array(x}, np.array(y))

result = model.fit_generator(generator=get_train_batch(X_train, y_train, train_batch_size, img_w, img_h, color_type, True),

          steps_per_epoch=1351,

          epochs=50, verbose=1,

          validation_data=get_train_batch(X_valid, y_valid, valid_batch_size,img_w, img_h, color_type, False),

          validation_steps=52,

          callbacks=[ckpt, early_stop],

          max_queue_size=capacity,

          workers=1)

参考：https://www.jianshu.com/p/5bdae9dcfc9c

https://keras.io/zh/models/model/

keras训练大量数据的办法的更多相关文章

Keras 训练 inceptionV3 并移植到OpenCV4.0 in C++
1. 训练 # --coding:utf--- import os import sys import glob import argparse import matplotlib.pyplot as ...
keras训练实例-python实现
用keras训练模型并实时显示loss/acc曲线,(重要的事情说三遍:实时!实时!实时!)实时导出loss/acc数值(导出的方法就是实时把loss/acc等写到一个文本文件中,其他模块如前端调用时 ...
keras训练cnn模型时loss为nan
keras训练cnn模型时loss为nan 1.首先记下来如何解决这个问题的:由于我代码中 model.compile(loss='categorical_crossentropy', optimiz ...
scipy笔记—scipy.misc.imresize用法(方便训练图像数据)
scipy.misc.imresize 不同于普通的reshape, imresize不是单纯的改变图像矩阵的维度,而是能将图片重采样为指定像素,这样给深度学习中训练图像数据带来方便. import ...
Solr4.6删除数据的办法
Solr4.6的管理界面上,假设不配置数据导入的功能,将看不到清除数据的button.我表示非常遗憾,正好我们线上没有配置数据导入的功能. 网上搜到的各种清理solr数据的HTTP请求,拿到我的sol ...
Solr4.3---4.6删除数据的办法
Solr4.6的管理界面上,如果不配置数据导入的功能,将看不到清除数据的按钮.我表示很遗憾,正好我们线上没有配置数据导入的功能. 网上搜到的各种清理solr数据的HTTP请求,拿到我的solr4.6上 ...
百度DMLC分布式深度机器学习开源项目（简称“深盟”）上线了如xgboost（速度快效果好的Boosting模型）、CXXNET（极致的C++深度学习库）、Minerva（高效灵活的并行深度学习引擎）以及Parameter Server（一小时训练600T数据）等产品，在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
百度为何开源深度机器学习平台? 有一系列领先优势的百度却选择开源其深度机器学习平台,为何交底自己的核心技术?深思之下,却是在面对业界无奈时的远见之举. 5月20日,百度在github上开源了其 ...
keras训练函数fit和fit_generator对比，图像生成器ImageDataGenerator数据增强
1. [深度学习] Keras 如何使用fit和fit_generator https://blog.csdn.net/zwqjoy/article/details/88356094 ps:解决样本数 ...
使用Keras训练大规模数据集
官方提供的.flow_from_directory(directory)函数可以读取并训练大规模训练数据,基本可以满足大部分需求.但是在有些场合下,需要自己读取大规模数据以及对应标签,下面提供一种方法 ...

随机推荐

【转载】如何在 Kaggle 首战中进入前 10%
本文转载自如何在 Kaggle 首战中进入前 10% 转载仅出于个人学习收藏,侵删 Introduction 本文采用署名 - 非商业性使用 - 禁止演绎 3.0 中国大陆许可协议进行许可.著作权由章 ...
spring boot系列（二）spring boot web开发
json 接口开发在以前的spring 开发的时候需要我们提供json接口的时候需要做如下配置: 1 添加jackjson等jar包 2 配置spring controller扫描 3 对接的方法添 ...
PTA --- 天梯赛 L1-028 判断素数
L1-028 判断素数 (10 point(s)) 本题的目标很简单,就是判断一个给定的正整数是否素数. 输入格式: 输入在第一行给出一个正整数N(≤ 10),随后N行,每行给出一个小于231 ...
Go语言入门篇-网络经验
Go语言学习手册 golang*看云 golang圣经 wuYinIO 1.go语言开发中的坑 go新手容易犯的三个致命错误 Golang 需要避免踩的 50 个坑 2.go语言数据类型 map ...
Django2.2 Mysql数据表一对一映射（字段绑定） --Model拓展学习笔记shen
我:本次继上次的Model继续延伸一下数据表之间的一对一映射关系访客:有什么用? 我:众所周知,一张数据表的字段太多会显得冗余.杂乱,那么就需要将一张表进行拆分成多个表,这样不会太杂乱,也比较好维护 ...
[c++] 计算太阳高度角
/* 输入参数: Longitude - 经度(单位"度") Latitude - 纬度(单位"度") Year - 年 Month - 月 Day - 日 H ...
[转帖]DotNetCore跨平台~System.DrawingCore部署Linux需要注意的
DotNetCore跨平台~System.DrawingCore部署Linux需要注意的 https://www.bbsmax.com/A/QV5ZemYVJy/?tdsourcetag=s_pc ...
mybatis-sql执行流程源码分析
1. SqlSessionFactory 与 SqlSession. 通过前面的章节对于mybatis 的介绍及使用,大家都能体会到SqlSession的重要性了吧, 没错,从表面上来看,咱们都是通过 ...
Luogu P1600[NOIP2016]day1 T2天天爱跑步
号称是noip2016最恶心的题基本上用了一天来搞明白+给sy讲明白(可能还没讲明白具体思路是真的不想写了(快吐了如果要看,参见洛谷P1600 天天爱跑步--题解虽然这样不好但我真的不想写了 ...
requests库爬取豆瓣热门国产电视剧数据并保存到本地
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...

keras训练大量数据的办法

keras训练大量数据的办法的更多相关文章

随机推荐

热门专题