TensorFlow深度学习实战---MNIST数字识别问题

1.滑动平均模型：

用途：用于控制变量的更新幅度，使得模型在训练初期参数更新较快，在接近最优值处参数更新较慢，幅度较小

方式：主要通过不断更新衰减率来控制变量的更新幅度。

衰减率计算公式：

decay = min{init_decay , (1 + num_update) / (10 + num_update)}

其中 init_decay 为设置的初始衰减率，num_update 为模型参数更新次数，由此可见，随着 num_update 更新次数的增加，(1 + num_update) / (10 + num_update 这一项的计算结果越接近1

参数更新公式：

shadow_variable = decay * shadow_variable + (1 - decay) * variable
其中 shadow_variable 为变量更新前的数值，variable为变量更新后的数值

例如:
x = 0
x = 1
此时 shadow_variable 就是 0 ， variable 就是 1 ，假如此时的衰减率 decay 是 0.5，则更新后的 x 取值为 0.5 * 0 + （1 - 0.5） * 1 = 0.5

通过以上公式可以发现，随着模型迭代次数的增加，(1 + num_update) / (10 + num_update) 这一项的计算结果越接近1,也就是 (1 - decay) * variable 更接近于 0 ，此时模型参数变化幅度减小 , 也就是 shadow_variable == decay * shadow_variable 等式越成立。

使用验证数据集判断模型效果：虽然一个神经网络模型的效果最终是通过测试数据来评判的，但不能直接通过模型在测试数据上的效果来选择参数。

使用测试数据来选择参数可能会导致神经网络模型过度你和测试数据，从而失去对未知数据的预判能力。

因此一般会从训练数据中抽取一部分作为验证是数据。

交叉验证（cross validation）：在海量数据下，花费时间比较长，一般会更多地采用验证数据集的形式来评测模型的效果。

3.在神经网络结构的设计上： 1）使用激活函数 2）多层隐藏层

在神经网络优化上：1）使用指数衰减的学习率 2）加入正则化的损失函数 2）滑动平均模型

4.通过MNIST数据集有效地验证了激活函数、隐藏层可以给模型的效果带来质的飞跃。此外，由于MNIST问题本身相对简单，滑动平均模型、指数衰减的学习率和正则化损失对最终正确率的提升效果不明显。

5.变量管理：

TensorFlow深度学习实战---MNIST数字识别问题的更多相关文章

实战Google深度学习框架-C5-MNIST数字识别问题
5.1 MNIST数据处理 MNIST是NIST数据集的一个子集,包含60000张图片作为训练数据,10000张作为测试数据,其中每张图片代表0~9中的一个数字,图片大小为28*28(可以用一个28* ...
TensorFlow深度学习实战---图像识别与卷积神经网络
全连接层网络结构:神经网络每两层之间的所有结点都是有边相连的. 卷积神经网络:1.输入层 2.卷积层:将神经网络中的每一个小块进行更加深入地分析从而得到抽象程度更高的特征. 3 池化层:可以认为将一张 ...
TensorFlow深度学习实战---图像数据处理
图像的亮度.对比度等属性对图像的影响非常大,这些因素都会影响最后的识别结构.当然,复杂的预处理过程可能会导致训练效率的下降(利用TensorFlow中多线程处理输入数据的解决方案). 同一不同的原始数 ...
TensorFlow深度学习实战---循环神经网络
循环神经网络(recurrent neural network,RNN)-------------------------重要结构(长短时记忆网络( long short-term memory,LS ...
深度学习之 mnist 手写数字识别
深度学习之 mnist 手写数字识别开始学习深度学习,先来一个手写数字的程序 import numpy as np import os import codecs import torch from ...
TensorFlow 2.0 深度学习实战 —— 浅谈卷积神经网络 CNN
前言上一章为大家介绍过深度学习的基础和多层感知机 MLP 的应用,本章开始将深入讲解卷积神经网络的实用场景.卷积神经网络 CNN(Convolutional Neural Networks,Conv ...
TensorFlow深度学习基础与应用实战高清视频教程
TensorFlow深度学习基础与应用实战高清视频教程,适合Python C++ C#视觉应用开发者,基于TensorFlow深度学习框架,讲解TensorFlow基础.图像分类.目标检测训练与测试以 ...
没有博士学位，照样玩转TensorFlow深度学习
教程 | 没有博士学位,照样玩转TensorFlow深度学习机器之心2017-01-24 12:32:22 程序设计谷歌操作系统阅读(362)评论(0) 选自Codelabs 机器之心编译参 ...
『深度应用』NLP机器翻译深度学习实战课程·壹（RNN base）
深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内容:(更新 ...

随机推荐

SDN测量论文粗读（一）9.19
UMON: Flexible and Fine Grained Traffic Monitoring in Open vSwitch 论文来源:CoNext 发表时间:2015 解决问题及所做贡献:现 ...
C# 参数关键字params的作用
为了将方法声明为可以接受可变数量参数的方法,我们可以使用params关键字来声明数组,要求: (1)在方法声明中的 params 关键字之后不允许任何其他参数,并且在方法声明中只允许一个 params ...
在正文部分操作accordion内容展开和闭合
$('#accordionid').accordion("select",0); //展开第一个title $('#accordionid').accord ...
读取本地json文件另一种方式
function getScenemapData(){ $.ajax({ url: "/js/currency.json", type: "GET" ...
CH4402 小Z的袜子（莫队）
描述作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿.终于有一天,小Z再也无法忍受这恼人的找袜子过程,于是他决定听天由命-- 具体来说,小Z把这N只袜子从1到N编号, ...
【2008-2009 ICPC NEERC D】Deposits（暴力）
题目链接题意: 给你n个数a[i],m个数b[i],求出有几对数满足a[i]能整除b[i]. 思路: 直接暴力,先将第一组数存入a数组,第二组数存入b数组,然后在第二组数中遍历它整数倍的数(在10^ ...
BZOJ 4520: [Cqoi2016]K远点对(k-d tree)
Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 1162 Solved: 618[Submit][Status][Discuss] Descripti ...
Ajax数据获取（未完待续。。。）
@:网站内容通过Ajax获取数据然后重新渲染产生这种时候我们如何拿到自己想要的数据: 1:打开检查,在network选项中查看浏览器发送了哪些请求.(清空,再刷新,得到新的请求) 在截图的左下角可以 ...
mysql5.6升级为mysql5.7部署jboss/wildfly应用项目
一.部署mysql5.7二进制版解压tar -xvf mv mysql-5.7 /usr/local/mysql5.7 或者其他文件夹 cd /usr/local/mysql.57 usera ...
MySQL5.7.22版本的安装和调试
1:安装前的准备工作需要的软件: boost_1_59_0.tar.gz,cmake-3.6.1.tar.gz,mysql-5.7.22.tar.gz 开始安装MySQL 2.1 检查cmake [ ...

TensorFlow深度学习实战---MNIST数字识别问题

TensorFlow深度学习实战---MNIST数字识别问题的更多相关文章

随机推荐

热门专题