keras使用稀疏输入进行训练

2018.06.14 12:55:46字数 902阅读 760

稀疏矩阵

稀疏矩阵是指矩阵中数值为0的元素数目远远多于非0元素的数目，在实际中遇到的大矩阵基本都是稀疏的。如果使用普通的ndarray存储稀疏矩阵，会有很大的内存浪费。在python中我们可以使用scipy中的sparse模块存储这些矩阵，但是在用keras搭建神经网络使用这些矩阵作为神经网络的输入时，则需要做一些处理才能使用sparse格式的数据。

方法一、使用keras函数式API中的参数实现

keras的Sequential顺序模型是不支持稀疏输入的，如果非要用Sequential模型，可以参考方法二。在使用函数式API模型时，Input层初始化时有一个sparse参数，用来指明要创建的占位符是否是稀疏的，如图：

Input的参数，可以用sparse来指明是否是稀疏的输入数据

在使用时也很直接，一个参数就可以搞定：

ipt_layer = Input((shape, ), sparse=True)

网络的定义过程和常规方法没有什么区别，后边compile、fit等操作也都没有变化。不过目前这么用有一个问题，就是指定的batch_size不生效，不管设置多大的batch_size，训练的时候都是按照batch_size为1来进行，可能是人家觉得都用稀疏数据了，数据肯定大到可怕，用大一些batch会引入内存问题吧。如果要使用指定的batch_size来训练稀疏数据，或者需要调整batch_size，可以参考方法二。

方法二、使用生成器方法实现

还有一种方法可以实现，是使用生成器的方法，最早看到这个方法是在stackoverflow上，参考链接

这种方法是利用生成器配合keras模型的fit_generator来实现，核心代码如下：

# batch_generator

def batch_generator(x, y, batch_size):

    number_of_batches = x.shape[0]//batch_size

    counter = 0

    shuffle_index = np.arange(x.shape[0])

    np.random.shuffle(shuffle_index)

    x = x[shuffle_index, :]

    y = y[shuffle_index, :]

    while 1:

        index_batch = shuffle_index[batch_size*counter: batch_size*(counter+1)]

        x_batch = x[index_batch, :].todense()

        y_batch = y[index_batch, :].todense()

        counter += 1

        yield(np.array(x_batch), np.array(y_batch))

        if counter >= number_of_batches:

            np.random.shuffle(shuffle_index)

            counter = 0

# fit时要先根据batch_size和样本总量计算一下总共的steps_per_epoch

train_steps = x.shape[0]//batch_size

# 在fit时使用fit_generator

model.fit_generator(generator=batch_generator(x, y, batch_size), steps_per_epoch=train_steps......)

除了生成器函数，这里需要注意的是在fit之前先要计算每个epoch需要训练多少个step。

在用这个方法进行训练的时候，对于validation数据，有几种场景区分：

如果比较大，也可以使用这个生成器，直接将fit_generator的validation_data这个参数设置为生成器并且使用对应的验证数据即可；
如果数据不大，可以选择把所有的validation数据都todense转为常规的ndarray；
另外如果在训练中使用tensorboard，并且histogram_freq参数设置不为0，那么验证数据就不能使用生成器来生成了，必须转为ndarray才可以。

方法总结

时间就是金钱，在多数场景下，推荐使用方法一，节省生命。但如果对于需要调整batch_size或者铁了头要用Sequential模型的，方法二是比较好的选择，鉴于方法二对于tensorboard不是很友好，所以建议在使用方法二的时候不要在验证集上也使用生成器。

对于稀疏的输入，上边的方法应该可以解决大部分问题了，不过有一些输出也是稀疏的情况，虽然训练过程跟着batch_size走，不会有什么影响，但在需要大规模predict的时候，比如要对几千万上亿条数据进行预测，目前还没有很好的办法能够直接输出稀疏格式存储的数据。

Keras：的更多相关文章

keras：InternalError: Failed to create session
如题,keras出现以上错误,解决办法: 找到占用gpu的进程: nvidia-smi -q 杀死这些进程即可: xxxxx
[机器学习] keras：MNIST手写数字体识别（DeepLearning 的 HelloWord程序）
深度学习界的Hello Word程序:MNIST手写数字体识别 learn from(仍然是李宏毅老师<机器学习>课程):http://speech.ee.ntu.edu.tw/~tlka ...
深度学习：Keras入门(一)之基础篇
1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深度学习框架. Keras是一个高层神经网络API,支持快速实验,能够把你的idea迅速转换为结 ...
深度学习框架： Keras官方中文版文档正式发布
今年 1 月 12 日,Keras 作者 François Chollet‏ 在推特上表示因为中文读者的广泛关注,他已经在 GitHub 上展开了一个 Keras 中文文档项目.而昨日,Françoi ...
深度学习：Keras入门(一)之基础篇【转】
本文转载自:http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorfl ...
深度学习：Keras入门(一)之基础篇（转）
转自http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深 ...
【TensorFlow 3】mnist数据集：与Keras对比
在TF1.8之后Keras被当作为一个内置API:tf.keras. 并且之前的下载语句会报错. mnist = input_data.read_data_sets('MNIST_data',one_ ...
安装Keras
在cmd窗口运行代码: pip install keras -U --pre 安装Keras: 进入Python环境,运行import keras,检验是否成功安装.
学习笔记TF054:TFLearn、Keras
元框架(metaframework). TFLearn.模块化深度学习框架,更高级API,快速实验,完全透明兼容. TFLearn实现AlexNet.https://github.com/tflear ...

随机推荐

LeetCode 5271. 访问所有点的最小时间 Minimum Time Visiting All Points
地址 https://leetcode-cn.com/problems/minimum-time-visiting-all-points/submissions/ 题目描述平面上有 n 个点,点的位置 ...
SP1716 GSS3 - Can you answer these queries III 线段树
问题描述 [LG-SP1716](https://www.luogu.org/problem/SP1716] 题解 GSS 系列的第三题,在第一题的基础上带单点修改. 第一题题解传送门在第一题的基础 ...
Leetcode450. 删除二叉搜索树中的节点
思路: (1)如果root为空,返回 (2)如果当前结点root是待删除结点: a:root是叶子结点,直接删去即可 b:root左子树不为空,则找到左子树的最大值,即前驱结点,使用前驱结点代替待删除 ...
golang数据结构之冒泡排序
//BubbleSort 冒泡排序 func BubbleSort(arr *[]int) { ; i >= ; i-- { ; j-- { if (*arr)[j] > (*arr)[i ...
【STM32H7教程】第21章 STM32H7的NVIC中断分组和配置（重要）
完整教程下载地址:http://www.armbbs.cn/forum.php?mod=viewthread&tid=86980 第21章 STM32H7的NVIC中断分组和配置( ...
hyper-v简介及安装使用
前言:作为IT界的巨头,微软自己的虚拟化技术,也是微软第一个采用Vmware与CitrixXen一样基于hypervisor的虚拟化技术,有着自己可圈可点的地方,微软自己的虚拟化技术嘛,对windo ...
models.py相关API
models.py import datetime from django.db import models from django.utils import timezone class Quest ...
SQLServer某个库log日志过大，无法收缩日志文件，因为该文件结尾的逻辑日志文件正在使用
问题描述: 今天看到user库日志备份方面很久,然后查看到user库这个log日志很大图片是我已经解决了,然后现在可以收缩的大小解决方法: 1.先备份user库日志,因为很大,所以要等很久,这个只 ...
web自动化针对PO模式进行二次封装之basepage
在PO模式当中,我们做到了页面对象与测试用例的分离,但在页面对象编写时,我们仍然还有优化的空间.页面对象有一些共同的基本操作,可以封装起来,并可以在基本操作当中加上日志和异常截图的处理.比如说我们在查 ...
springboot实践1
环境安装安装jdk 推荐安装jkd1.8+,我使用的是mac,假设已经安装好homebrew,则jdk的安装指令是: brew install java 在 ~/zshrc ,添加两行 export ...

Keras：