过拟合和欠拟合

以IMDB dataset为例，对于过拟合和欠拟合，不同模型的测试集和验证集损失函数图如下：

baseline模型结构为：10000-16-16-1

smaller_model模型结构为：10000-4-4-1

bigger_model模型结构为：10000-512-512-1

造成过拟合的原因通常是参数过多或者数据较少，欠拟合往往是训练次数不够。

解决方法

正则化

正则化简单来说就是稀疏化参数，使得模型参数较少。类似于降维。

正则化参考： https://blog.csdn.net/jinping_shi/article/details/52433975

tf.keras通常在损失函数后添加正则项，l1正则化和l2正则化。

l2_model = keras.models.Sequential([

    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),#权重l2正则化

                       activation=tf.nn.relu, input_shape=(10000,)),

    keras.layers.Dense(16, kernel_regularizer=keras.regularizers.l2(0.001),#权重l2正则化

                       activation=tf.nn.relu),

    keras.layers.Dense(1, activation=tf.nn.sigmoid)

])

l2_model.compile(optimizer='adam',

                 loss='binary_crossentropy',

                 metrics=['accuracy', 'binary_crossentropy'])

l2_model_history = l2_model.fit(train_data, train_labels,

                                epochs=20,

                                batch_size=512,

                                validation_data=(test_data, test_labels),

                                verbose=2)

dropout

Dropout将在训练过程中每次更新参数时按一定概率（rate）随机断开输入神经元，使得比例为rate的神经元不被训练。

具体见： https://yq.aliyun.com/articles/68901

dpt_model = keras.models.Sequential([

    keras.layers.Dense(16, activation=tf.nn.relu, input_shape=(10000,)),

    keras.layers.Dropout(0.3), #百分之30的神经元失效

    keras.layers.Dense(16, activation=tf.nn.relu),

    keras.layers.Dropout(0.7), #百分之70的神经元失效

    keras.layers.Dense(1, activation=tf.nn.sigmoid)

])

dpt_model.compile(optimizer='adam',

                  loss='binary_crossentropy',

                  metrics=['accuracy','binary_crossentropy'])

dpt_model_history = dpt_model.fit(train_data, train_labels,

                                  epochs=20,

                                  batch_size=512,

                                  validation_data=(test_data, test_labels),

                                  verbose=2)

总结

常用防止过拟合的方法有：

增加数据量
减少网络结构参数
正则化
dropout
数据扩增data-augmentation
批标准化

[深度学习] tf.keras入门4-过拟合和欠拟合的更多相关文章

[深度学习] tf.keras入门3-回归
目录波士顿房价数据集数据集数据归一化模型训练和预测模型建立和训练模型预测总结回归主要基于波士顿房价数据库进行建模,官方文档地址为:https://tensorflow.google.c ...
[深度学习] tf.keras入门5-模型保存和载入
目录设置基于checkpoints的模型保存通过ModelCheckpoint模块来自动保存数据手动保存权重整个模型保存总体代码模型可以在训练中或者训练完成后保存.具体文档参考:http ...
[深度学习] tf.keras入门2-分类
目录 Fashion MNIST数据库分类模型的建立模型预测总体代码主要介绍基于tf.keras的Fashion MNIST数据库分类, 官方文档地址为:https://tensorflow. ...
[深度学习] tf.keras入门1-基本函数介绍
目录构建一个简单的模型序贯(Sequential)模型网络层的构造模型训练和参数评价模型训练模型的训练 tf.data的数据集模型评估和预测基本模型的建立网络层模型模型子类函数构建 ...
深度学习：Keras入门(一)之基础篇
1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深度学习框架. Keras是一个高层神经网络API,支持快速实验,能够把你的idea迅速转换为结 ...
深度学习：Keras入门(一)之基础篇【转】
本文转载自:http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorfl ...
深度学习：Keras入门(一)之基础篇（转）
转自http://www.cnblogs.com/lc1217/p/7132364.html 1.关于Keras 1)简介 Keras是由纯python编写的基于theano/tensorflow的深 ...
深度学习：Keras入门(二)之卷积神经网络(CNN)
说明:这篇文章需要有一些相关的基础知识,否则看起来可能比较吃力. 1.卷积与神经元 1.1 什么是卷积? 简单来说,卷积(或内积)就是一种先把对应位置相乘然后再把结果相加的运算.(具体含义或者数学公式 ...
深度学习：Keras入门(二)之卷积神经网络(CNN)【转】
本文转载自:https://www.cnblogs.com/lc1217/p/7324935.html 说明:这篇文章需要有一些相关的基础知识,否则看起来可能比较吃力. 1.卷积与神经元 1.1 什么 ...

随机推荐

DevOps｜高效能敏捷交付组织：特性团队(FeatureTeam)+Scrum
这是<研发效能组织能力建设>的第三篇.特性团队和Scrum,这两个定义我们在之前的文章中都详细介绍了.这两个组织模式或者说管理实践,我都用过所以有些时候特别有感触.书本上纯粹的模式很容易理 ...
Ajax的使用（jquery的下载）
Ajax学习笔记(jquery的下载) JQuery的官网下载地址:http://jquery.com 右上角的"Download JQuery" 三个可供下载的文件: Prod ...
LcdTools如何导出内置画面为bmp图片
运行LcdTools,先设置好图片所需分辨率参数,点击"画面设置"栏,修改下图所示参数点击"画面设置"栏,在"画面资源"栏找到需要导出的画 ...
26.ViewSet和action
在dispatch过程中,下列属性可用于 ViewSet : basename - 根url路径 action - 当前动作类型(例如 list , create ). detail - 用于指示 ...
微信小程序仿手机相册组件——简单版
仿手机相册的微信小程序组件,具备点击图片预览,长按图片出现多选框功能,读者可以根据自己的需求,依据现有数据进行删除等操作.话不多说,先看效果: 初始效果: 长按效果: 选择效果: 注意:当前只是简单 ...
Codeforces Round #830 (Div. 2) A-D
比赛链接 A 题解知识点:贪心,数论. 先求出序列最大公约数 \(d\) ,如果为 \(1\) 直接输出 \(0\) . 否则,尝试用最后一个数操作, \(gcd(d,n) = 1\) 则可以,花费 ...
SpringBoot自动配置(装配)流程
源码分析 SpringBoot自动配置流程首先,我们要了解在@SpringBootApplication注解的内部,还具有@EnableAutoConfiguration,@SpringBo ...
一、什么是celery
一.什么是Celery 1.1.celery是什么 celery是一个简单.灵活且可靠的,处理大量消息的分布式系统,专注于是心爱处理的异步任务队列,同事也支持任务调度. Celery的架构由三部分组成 ...
python 队列（QUEUE）
QUEUE python中多线程编程的数据结构基本FIFO队列 class Queue.Queue(maxsize=0) 先进先出,maxsize为队列中能存放的数据个数上限. import Que ...
Eclipse Python IDE安装
时隔一年,曾经的AI工程师微专业课程也忘了大半,如今终于有闲心重温人工智能的相关知识与项目.先从Eclipse安装开始. 首先下载JDK,进入JDK官网下载最新版本的JDK并安装:https://ww ...

[深度学习] tf.keras入门4-过拟合和欠拟合

过拟合和欠拟合

解决方法

正则化

dropout

总结

[深度学习] tf.keras入门4-过拟合和欠拟合的更多相关文章

随机推荐

热门专题