keras fit_generator 并行

虽然已经走在 torch boy 的路上了，还是把碰到的这个坑给记录一下

数据量较小时，我们可直接把整个数据集 load 到内存里，用 model.fit() 来拟合模型。
当数据集过大比如几十个 G 时，内存撑不下，需要用 model.fit_generator 的方式来拟合。

model.fit_generator 一般参数的配置参考官方文档就好，其中 generator, workers, use_multiprocessing 的使用有一些坑存在。

workers=0, use_multiprocessing=False

此时 generator 用一个普通的 generator去提供数据即可，类似官方提供的这种

def generate_arrays_from_file(path):

    while True:

        with open(path) as f:

            for line in f:

                # create numpy arrays of input data

                # and labels, from each line in the file

                x1, x2, y = process_line(line)

                yield ({'input_1': x1, 'input_2': x2}, {'output': y})

model.fit_generator(generate_arrays_from_file('/my_file.txt'),

                    steps_per_epoch=10000, epochs=10)

workers>0, use_multiprocessing=True

这时依然用一个 generator function 来做 generator在拟合的时候便会报错如下：

PicklingError: Can't pickle <function generator_queue.<locals>.data_generator_task at

且当 use_multiprocessing=True 时，如果你使用的是 generator function, 代码会把你的数据copy几份分给不同的worker去处理，但我们希望的是把一份数据平均分拆成几份给多个worker去处理。

怎么解决上面两个问题？ keras.utils.Sequence 可以做到

很简单，继承 keras.utils.Sequence 这个类，重写自己的 len(), getitem 即可。

class SequenceData(Sequence):

    def __init__(self, filePaths, batch_size):

        self.filePaths = filePaths[:100].copy()

        self.batch_size = batch_size

        self.Y = self.getY()

    def __len__(self):

        return len(self.Y) // self.batch_size

    def __getitem__(self, index):

        batch_X = np.zeros((self.batch_size,) + IMG_DIMS, dtype='float32')

        batch_Y_ = self.Y[index*self.batch_size: (index+1)*self.batch_size].copy()

        batch_Y_.reset_index(drop=True, inplace=True)

        assert batch_Y_.shape[0] == self.batch_size

        for index, rows in batch_Y_.iterrows():

            try:

                img = _load_img(rows['path'])

                batch_X[index, :, :, :] = img.copy()

                batch_Y_.loc[index, 'valid'] = 1

            except:

                batch_Y_.loc[index, 'valid'] = 0

                traceback.print_exc()

        batch_Y = to_categorical(batch_Y_['label'], classes_num)

        return batch_X, batch_Y

    def __iter__(self):

        for item in (self[i] for i in range(len(self))):

            yield item

    def getY(self):

        Y = pd.DataFrame(self.filePaths, columns=['path'])

        Y['class'] = Y['path'].apply(lambda x: path2class(x))

        Y['label'] = Y['class'].apply(lambda x: class2label[x])

        Y = Y.sample(frac=1).reset_index(drop=True)

        return Y

效果比较

样本量：1000张图片
模型： MobileNetV2
epochs: 5
CPU: 4核，3.4GHz
GPU: None

可能数据量过小，并行的效果不是太明显。

数据读取方式	workers	use_multiprocessing	耗时/s
内存读取	0	True	1797
keras.utils.Sequence	0	False	1475
keras.utils.Sequence	4	True

参考：

keras fit_generator 并行的更多相关文章

keras 入门整理如何shuffle，如何使用fit_generator 整理合集
keras入门参考网址: 中文文档教你快速建立model keras不同的模块-基本结构的简介-类似xmind整理 Keras的基本使用(1)--创建,编译,训练模型 Keras学习笔记(完结) ke ...
（转）The AlphaGo Replication Wiki
The AlphaGo Replication Wiki 摘自:https://github.com/Rochester-NRT/RocAlphaGo/wiki/01.-Home Contents : ...
『计算机视觉』Mask-RCNN_训练网络其三：训练Model
Github地址:Mask_RCNN 『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mask-RCNN_推断网络其一:总览『计算机视觉』M ...
[Tensorflow] 使用 Mask_RCNN 完成目标检测与实例分割，同时输出每个区域的 Feature Map
Mask_RCNN-2.0 网页链接:https://github.com/matterport/Mask_RCNN/releases/tag/v2.0 Mask_RCNN-master(matter ...
keras系列︱利用fit_generator最小化显存占用比率/数据Batch化
本文主要参考两篇文献: 1.<深度学习theano/tensorflow多显卡多人使用问题集> 2.基于双向LSTM和迁移学习的seq2seq核心实体识别运行机器学习算法时,很多人一开始 ...
keras 学习笔记（一） ——— model.fit & model.fit_generator
from keras.preprocessing.image import load_img, img_to_array a = load_img('1.jpg') b = img_to_array( ...
[TensorFlow 2] [Keras] fit()、fit_generator() 和 train_on_batch() 分析与应用
前言是的,除了水报错文,我也来写点其他的.本文主要介绍Keras中以下三个函数的用法: fit()fit_generator()train_on_batch()当然,与上述三个函数相似的evalua ...
keras训练函数fit和fit_generator对比，图像生成器ImageDataGenerator数据增强
1. [深度学习] Keras 如何使用fit和fit_generator https://blog.csdn.net/zwqjoy/article/details/88356094 ps:解决样本数 ...
Keras函数——mode.fit_generator()
1 model.fit_generator(self,generator, steps_per_epoch, epochs=1, verbose=1, callbacks=None, validati ...

随机推荐

【Linux】CentOS7中修改中文字符集
CentOS 7中字符集查看的方式是 locale -a 或者locale 如果想显示中文的话,应该修改为 LANG="zh_CN.UTF-8" 在命令行界面临时修改字符集的话 ...
ping 命令示例
将下面的代码粘贴到记事本中,然后保存为扩展名为BAT的文件,运行就可以将网段内ping不通的IP地址写入到文本文件IP.txt中. @echo offsetlocal ENABLEDELAYEDEXP ...
Ubuntu源、Python虚拟环境及pip源配置
Ubuntu 命令行更改源在修改source.list前,最好先备份一份软件源的地址配置文件在 /etc/apt/sources.list 执行备份命令 sudo cp /etc/apt/sour ...
C#高级编程第11版 - 第四章索引
[1]4.2 继承的类型 1.C#不支持类的多继承,但它支持一个接口继承自多个接口. 2.单继承:单继承允许一个类继承自另外一个基类,C#支持. 3.多级继承:多级继承允许创建一个类继承自它的父类,而 ...
抓包一张tcpdump小抄就够了
作者简介李先生(Lemon),高级运维工程师(自称),SRE专家(目标),梦想在35岁买一辆保时捷.喜欢钻研底层技术,认为底层基础才是王道.一切新技术都离不开操作系统(CPU.内存.磁盘).网络等. ...
实用 nginx.conf 用法大全
服务器拒绝非GET方式请求保障安全性,因为 DELETE.POST.PUT 是可以修改数据的. Nginx 解决方案在 nginx.conf 配置文件的网站配置区域中添加如下代码片段: 非 GET ...
游标深度分页 deep paging
Solr Deep Paging(solr 深分页) - ickes的专栏 - CSDN博客 https://blog.csdn.net/xl_ickes/article/details/427725 ...
Canvas实现弧线时钟
最近试着用canvas元素的2d绘图函数做了一个弧线形的时钟. 我也没啥好说的,直接上代码: <div id="myclock"></div> <sc ...
nginx 配置文件解读
参考:链接在微服务的体系之下,Nginx正在被越来越多的项目采用作为网关来使用,配合 Lua 做限流.熔断等控制 --源自 nginx Lua 脚本语言,用标准C语言编写并以源代码形式开放, 其设计 ...
七：SpringBoot-集成Redis数据库，实现缓存管理
SpringBoot-集成Redis数据库,实现缓存管理 1.SpringBoot集成Redis 1.1 核心依赖 1.2 配置文件 1.3 简单测试案例 1.4 自定义序列化配置 1.5 序列化测试 ...