(六) 6.3 Neurons Networks Gradient Checking

BP算法很难调试，一般情况下会隐隐存在一些小问题，比如（off-by-one error），即只有部分层的权重得到训练，或者忘记计算bais unit，这虽然会得到一个正确的结果，但效果差于准确BP得到的结果。

有了cost function，目标是求出一组参数W，b，这里以表示，cost function 暂且记做。假设，则，即一维情况下的Gradient Descent:

根据6.2中对单个参数单个样本的求导公式：

可以得到每个参数的偏导数，对所有样本累计求和，可以得到所有训练数据对参数的偏导数记做，是靠BP算法求得的，为了验证其正确性，看下图回忆导数公式：

可见有：那么对于任意值，我们都可以对等式左边的导数用：

来近似。

给定一个被认为能计算的函数，可以用下面的数值检验公式

应用时，通常把设置为一个很小的常量，比如在数量级，最好不要太小了，会造成数值的舍入误差。上式两端值的接近程度取决于的具体形式。假定的情况下，上式左右两端至少有4位有效数字是一样的（通常会更多）。

当是一个n维向量而不是实数时，且，在 Neorons Network 中，J（W，b）可以想象为 W，b 组合扩展而成的一个长向量，现在又一个计算的函数，如何检验能否输出到正确结果呢，用的取值来检验，对于向量的偏导数：

根据上图，对 _i求导时，只需要在向量的第i维上进行加减操作，然后求值即可，定义，其中

和几乎相同，除了第行元素增加了，类似地，得到的第行减小了，然后求导并与比较：

中的参数对应的是参数向量中一个分量的细微变化，损失函数J 在不同情况下会有不同的值（比如三层NN 或者三层autoencoder（需加上稀疏项）），上式中左边为BP算法的结果，右边为真正的梯度，只要两者很接近，说明BP算法是在正确工作，对于梯度下降中的参数是按照如下方式进行更新的：

即有分别为：

最后只需总体损失函数J(W，b)的偏导数与上述的值比较即可。

除了梯度下降外，其他的常见的优化算法：1) 自适应的步长，2) BFGS L-BFGS，3) SGD，4) 共轭梯度算法，以后涉及到再看。

(六) 6.3 Neurons Networks Gradient Checking的更多相关文章

CS229 6.3 Neurons Networks Gradient Checking
BP算法很难调试,一般情况下会隐隐存在一些小问题,比如(off-by-one error),即只有部分层的权重得到训练,或者忘记计算bais unit,这虽然会得到一个正确的结果,但效果差于准确BP得 ...
(六) 6.1 Neurons Networks Representation
面对复杂的非线性可分的样本是,使用浅层分类器如Logistic等需要对样本进行复杂的映射,使得样本在映射后的空间是线性可分的,但在原始空间,分类边界可能是复杂的曲线.比如下图的样本只是在2维情形下的示 ...
(六) 6.2 Neurons Networks Backpropagation Algorithm
今天得主题是BP算法.大规模的神经网络可以使用batch gradient descent算法求解,也可以使用 stochastic gradient descent 算法,求解的关键问题在于求得每层 ...
（六）6.10 Neurons Networks implements of softmax regression
softmax可以看做只有输入和输出的Neurons Networks,如下图: 其参数数量为k*(n+1) ,但在本实现中没有加入截距项,所以参数为k*n的矩阵. 对损失函数J(θ)的形式有: 算法 ...
（六）6.5 Neurons Networks Implements of Sparse Autoencoder
一大波matlab代码正在靠近.- -! sparse autoencoder的一个实例练习,这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共1000 ...
（六）6.16 Neurons Networks linear decoders and its implements
Sparse AutoEncoder是一个三层结构的网络,分别为输入输出与隐层,前边自编码器的描述可知,神经网络中的神经元都采用相同的激励函数,Linear Decoders 修改了自编码器的定义,对 ...
（六）6.13 Neurons Networks Implements of stack autoencoder
对于加深网络层数带来的问题,(gradient diffuse 局部最优等)可以使用逐层预训练(pre-training)的方法来避免 Stack-Autoencoder是一种逐层贪婪(Greedy ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Gradient Checking)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Gradient Checking Welcome to the final assignment for this week! In ...
课程二(Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization)，第一周（Practical aspects of Deep Learning） —— 4.Programming assignments:Gradient Checking
Gradient Checking Welcome to this week's third programming assignment! You will be implementing grad ...

随机推荐

WCF分布式开发步步为赢(9):WCF服务实例激活类型编程与开发
.Net Remoting的激活方式也有三种:SingleTon模式.SingleCall模式.客户端激活方式,WCF服务实例激活类型包括三种方式:单调服务(Call Service),会话服务(Se ...
poj 2449(A*求第K短路)
题目链接:http://poj.org/problem?id=2449 思路:我们可以定义g[x]为源点到当前点的距离,h[x]为当前点到目标节点的最短距离,显然有h[x]<=h*[x](h*[ ...
hdu 4618(最大回文子矩阵)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4618 昨天多校的一道题,说多了都是泪啊,为了一道图论题,磨了那么久,结果是别的题都没看,没办法,补呗. ...
Linux操作系统下的Sudo命令
查看.修改或者执行某些命令需要root用户的权限,如果不想直接切换到root用户,就可以使用sudo命令.sudo命令用于针对单个命令授予临时权限.sudo仅在需要时授予用户权限,减少了用户因为错误执 ...
hdu1715
http://acm.hdu.edu.cn/showproblem.php?pid=1715 模板大数: #include <stdio.h> #include <string.h& ...
hdu 2897 邂逅明下
转: 这个游戏和Bash game差不多,只不过是Bash game说的是每次最少取一个,最多m个,这个游戏限制在p 和q之间而已,若最后不足p个,那么就一次取完.而且该游戏要求的是最后取光的人输. ...
React组件生命周期-初始化阶段的函数执行顺序
<!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="UTF-8& ...
windows xp 无法连接wpa无线网络
其实以前一直是可以的,不知为什么前几天忽然就不能加入原有的无线网了.我的无线网是WPA加密的,采用DHCP分配IP(但针对特定MAC地址分配静态IP). 在网上找了许久,有的网友认为应该把无线网卡(那 ...
【原创】关于Adapter的The content of the adapter has changed问题分析
关于Adapter的The content of the adapter has changed问题分析 1.问题描述 07-28 17:22:02.162: E/AndroidRuntime(1 ...
linux驱动模型<输入子系统>
在linux中提供一种输入子系统的驱动模型,其主要是实现在input.c中. 在输入子系统这套模型中,他把驱动分层分类.首先分为上下两层,上层为input.c .下层为驱动的实现,下层分为两部分,一部 ...

(六) 6.3 Neurons Networks Gradient Checking

(六) 6.3 Neurons Networks Gradient Checking的更多相关文章

随机推荐

热门专题