1. 前言

DNN前向传播介绍了DNN的网络是如何的从前向后的把数据传递过去的，但是只有这个过程还不够，我们还需要想办法对所有参数进行一个梯度的更新，才能使得网络能够慢慢的学习到新的东西。

在神经网络中有一种通用的方法来更新参数，叫做反向更新BP。

2. DNN反向更新过程

根据前面的前向传播的过程我们得到了一个传播公式，其中\(\sigma\)是激活函数，对具体的函数不做要求，可以是线性激活函数，也可以是非线性激活函数。

\[
a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)\;\;\;\;\;\;(0)
\]
我们假设DNN的损失函数是MSE，其中\(a^L\)是输出层的输出：

\[
J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2
\]
对低\(l\)层的\(W,b\)求导数有：

\[
\frac{\partial J(W,b,x,y)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l}\;\;\;\;\;\;(1)
\]

\[
\frac{\partial J(W,b,x,y)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l}\;\;\;\;\;\;(2)
\]
我们令

\[
\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l}\;\;\;\;\;\;(3)
\]

把(3)带入(1)(2)得到下式(4)(5)
\[
\frac{\partial J(W,b,x,y)}{\partial W^l} = \delta^{l}(a^{l-1})^T\;\;\;\;\;\;(4)
\]

\[
\frac{\partial J(W,b,x,y)}{\partial b^l} = \delta^{l}\;\;\;\;\;\;(5)
\]
我们只要求出\(\delta^l\)的表达式，就能求出每一层的\(W^l,b^l\)的梯度，就能对每层进行梯度更新。

由(3)不难得出

\[
\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^{l}} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}}\;\;\;\;\;\;(6)
\]
又因为有

\[
z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1}\;\;\;\;\;\;(7)
\]
根据(6)(7)我们得出

\[
\delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)\;\;\;\;\;\;(8)
\]
现在我们有了一个\(\delta^{l}\)和\(\delta^{l+1}\)的递推公式，我们只要求出最后一层的\(\delta^{L}\)，就能算出所有层的\(\delta^{l}\)，然后根据(4)(5)可以算出每层的参数的梯度并进行更新。

如果理解了上面的过程，相比读者对计算\(\delta^{L}\)已经不在话下了：
\[
\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)
\]

到此为止，我们已经能成功的更新了每层的梯度，整个网络在理论上已经能够跑通了。不过在此说明两点。

上面的推理过程是在MSE的假设下进行的，如果换一个损失函数，那需要对计算输出层\(\delta^{L}\)进行相应的修改。
因为方便推理过程，前面都使用同一个激活函数\(\sigma\)，但是其实每一层可以有自己相应的激活函数，只要计算过程中使用相应的相应激活函数的导数即可。

3. 总结

由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

2. DNN神经网络的反向更新（BP）的更多相关文章

3. DNN神经网络的正则化
1. DNN神经网络的前向传播(FeedForward) 2. DNN神经网络的反向更新(BP) 3. DNN神经网络的正则化 1. 前言和普通的机器学习算法一样,DNN也会遇到过拟合的问题,需要考 ...
1. DNN神经网络的前向传播（FeedForward）
1. DNN神经网络的前向传播(FeedForward) 2. DNN神经网络的反向更新(BP) 3. DNN神经网络的正则化 1. 前言神经网络技术起源于上世纪五.六十年代,当时叫感知机(perc ...
3. CNN卷积网络-反向更新
1. CNN卷积网络-初识 2. CNN卷积网络-前向传播算法 3. CNN卷积网络-反向更新 1. 前言如果读者详细的了解了DNN神经网络的反向更新,那对我们今天的学习会有很大的帮助.我们的CNN ...
神经网络，前向传播FP和反向传播BP
1 神经网络神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入.例如,下图就是一个简单的神经网络: 我们使用圆圈来表示神经网络的输入,标上“”的圆 ...
神经网络之反向传播算法（BP）公式推导（超详细）
反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是"误差反向传播"的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见 ...
关于 RNN 循环神经网络的反向传播求导
关于 RNN 循环神经网络的反向传播求导本文是对 RNN 循环神经网络中的每一个神经元进行反向传播求导的数学推导过程,下面还使用 PyTorch 对导数公式进行编程求证. RNN 神经网络架构一个 ...
NLP教程(3) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
minimize.m:共轭梯度法更新BP算法权值
minimize.m:共轭梯度法更新BP算法权值作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ Carl Edward Rasmussen在高斯机器学 ...
MATLAB神经网络（2） BP神经网络的非线性系统建模——非线性函数拟合
2.1 案例背景在工程应用中经常会遇到一些复杂的非线性系统,这些系统状态方程复杂,难以用数学方法准确建模.在这种情况下,可以建立BP神经网络表达这些非线性系统.该方法把未知系统看成是一个黑箱,首先用 ...

随机推荐

IIS状态监测（如果状态错误则重启IIS）
步骤: 1:建立健康监测文件.文件内容随意,这里以healthcheck.aspx命名,内容是<span>hellow word</span> 2:利用vbs语言执行IIS重启 ...
.NET Core 2.0 Cookie中间件权限验证
:在ConfigureServices添加Cookie中间件,使用自定义Scheme services.AddAuthentication(options=> { options.Default ...
asp.net与C# path.GetFullPath 获取上级目录
string path = new directoryinfo("../").fullname;//当前应用程序路径的上级目录获取当前目录可以使用appdomain.curren ...
Asp.net2.0之自定义控件ImageButton
控件模仿winform中的button,可以支持图片和文字.可以选择执行服务器端程序还是客户端程序,还有一些简单的设置. 不足的是不支持样式,下次希望可以写一个工具条. 以下就是代码以下为引用的内容 ...
温故而知新 Ajax 的新坑 dataType: 'json'
为了方便实验,我随便捏造了一个json数据,然后放在php中输出. 请求明明是200,json数据也正确,但ajax就是不执行success回调? 原因是 dataType: 'json', 导致的. ...
unity, shader中获得当前像素深度
frag shader中直接访问i.pos.z就是深度,不必除以i.pos.w,因为系统已经自动进行过了透视除法且已将i.pos.w置为0.
php分享二十二：php面向对象
1:static访问符在类中使用static有两种主要用途.定义静态成员和定义静态方法.静态成员只保留一个变量的值,这个值对所有实例都是有效的类的方法是static的,他所访问的属性也必须是sta ...
Xtrabackup备份、还原、恢复Mysql操作大全
环境:CentOS 6.7 + Mysql 5.7.19 + Xtraback 2.4.8 innobackupex常用参数: --user=USER 指定备份用户,不指定的话为当前系统用户 --p ...
Word 2010之简单图文混排
所谓图文混排,就是指将图片与文本内容进行一定规律的排列,以让文档更加漂亮. 下面的示范是一个简单的将两副照片混排到文字当中的(图片与文本内容无关,仅供演示). 1. 打开Word,输入文本内容: 2. ...
ssh转发
ssh有3种转发:本地转发,远程转发,动态转发. 1.本地转发:当client和ssh-client的方向一致的时候,就是本地转发. 限制:1)client直接访问server被防火墙阻挡.2)ssh ...

2. DNN神经网络的反向更新（BP）

1. DNN神经网络的前向传播（FeedForward）