在深度神经网络（DNN）模型与前向传播算法中，我们对DNN的模型和前向传播算法做了总结，这里我们更进一步，对DNN的反向传播算法（Back Propagation，BP）做一个总结。

1. DNN反向传播算法要解决的问题

　　　　在了解DNN的反向传播算法前，我们先要知道DNN反向传播算法要解决的问题，也就是说，什么时候我们需要这个反向传播算法？　

　　　　回到我们监督学习的一般问题，假设我们有m个训练样本：$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$,其中$x$为输入向量，特征维度为$n\_in$,而$y$为输出向量，特征维度为$n\_out$。我们需要利用这m个样本训练出一个模型，当有一个新的测试样本$(x_{test},?)$来到时, 我们可以预测$y_{test}$向量的输出。　

　　　　如果我们采用DNN的模型，即我们使输入层有$n\_in$个神经元，而输出层有$n\_out$个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵$W$,偏倚向量$b$,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢？

　　　　如果大家对传统的机器学习的算法优化过程熟悉的话，这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失，接着对这个损失函数进行优化求最小化的极值，对应的一系列线性系数矩阵$W$,偏倚向量$b$即为我们的最终结果。在DNN中，损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的，当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉，建议先阅读我之前写的梯度下降（Gradient Descent）小结。

　　　　对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

2. DNN反向传播算法的基本思路

　　　　在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问：训练样本计算出的输出是怎么得来的？这个输出是随机选择一系列$W,b$,用我们上一节的前向传播算法计算出来的。即通过一系列的计算：$a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$。计算到输出层第$L$层对应的$a^L$即为前向传播算法计算出来的输出。

　　　　回到损失函数，DNN可选择的损失函数有不少，为了专注算法，这里我们使用最常见的均方差来度量损失。即我们期望最小化下式：$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2$$

　　　　其中，$a^L$和$y$为特征维度为$n\_out$的向量,而$||S||_2$为S的L2范数。

　　　　损失函数有了，现在我们开始用梯度下降法迭代求解每一层的$W,b$。

　　　　首先是输出层第$L$层。注意到输出层的$W,b$满足下式：$$a^L = \sigma(z^L) = \sigma(W^La^{L-1} + b^L)$$

　　　　这样对于输出层的参数，我们的损失函数变为：$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2 = \frac{1}{2}|| \sigma(W^La^{L-1} + b^L-y)||_2^2$$

　　　　这样求解$W,b$的梯度就简单了：$$\frac{\partial J(W,b,x,y)}{\partial W^L} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial W^L} = (a^{L-1})^T(a^L-y)\odot \sigma^{'}(z)$$$$\frac{\partial J(W,b,x,y)}{\partial b^L} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial b^L} =(a^L-y)\odot \sigma^{'}(z^L)$$

　　　　注意上式中有一个符号$\odot$,它代表Hadamard积，对于两个维度相同的向量$A（a_1,a_2,...a_n）^T$和$B（b_1,b_2,...b_n）^T$,则$A \odot B = (a_1b_1, 2_2b_2,...a_nb_n)^T$。

　　　　我们注意到在求解输出层的$W,b$的时候，有公共的部分$\frac{\partial J(W,b,x,y)}{\partial z^L}$，因此我们可以把公共的部分即对$z^L$先算出来，记为：$$\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$$

　　　　现在我们终于把输出层的梯度算出来了，那么如何计算上一层$L-1$层的梯度，上上层$L-2$层的梯度呢？这里我们需要一步步的递推，注意到对于第$l$层的未激活输出$z^l$，它的梯度可以表示为:$$\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial z^{L-1}}\frac{\partial z^{L-1}}{\partial z^{L-2}}...\frac{\partial z^{l+1}}{\partial z^{l}}$$

　　　　如果我们可以依次计算出第$l$层的$\delta^l$,则该层的$W^l,b^l$很容易计算？为什么呢？注意到根据前向传播算法，我们有：$$z^l= W^la^{l-1} + b^l$$

　　　　所以根据上式我们可以很方便的计算出第l层的$W^l,b^l$的梯度如下：$$\frac{\partial J(W,b,x,y)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l} = \delta^{l}(a^{l-1})^T$$$$\frac{\partial J(W,b,x,y)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l} = \delta^{l}$$

　　　　那么现在问题的关键就是要求出$ \delta^{l}$了。这里我们用数学归纳法，第$L$层的$\delta^{L}$上面我们已经求出，假设第$l+1$层的$\delta^{l+1}$已经求出来了，那么我们如何求出第$l$层的$\delta^{l}$呢？我们注意到：$$\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^{l}} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}}$$

　　　　可见，用归纳法递推$\delta^{l+1}$和$\delta^{l}$的关键在于求解$\frac{\partial z^{l+1}}{\partial z^{l}}$。

　　　　而$z^{l+1}$和$z^{l}$的关系其实很容易找出：$$z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1} $$

　　　　这样很容易求出：$$\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\odot \sigma^{'}(z^l)$$

　　　　将上式带入上面$\delta^{l+1}$和$\delta^{l}$关系式我们得到：$$\delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$$

　　　　现在我们得到了$\delta^{l}$的递推关系式，只要求出了某一层的$\delta^{l}$，求解$W^l,b^l$的对应梯度就很简单的。

3. DNN反向传播算法过程

　　　　现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，这里我们以批量梯度下降法为例来描述反向传播算法。

　　　　输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长$\alpha$,最大迭代次数MAX与停止迭代阈值$\epsilon$，输入的m个训练样本$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$

　　　　输出：各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$

　　　　1) 初始化各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$的值为一个随机值。

　　　　2) for i =1 to m：

　　　　　　a) 将DNN输入$a^1$设置为$x_i$

　　　　　　b) for $l$=2 to L，进行前向传播算法计算$a^{i,l} = \sigma(z^{i,l}) = \sigma(W^la^{i,l-1} + b^l)$

　　　　　　c) 通过损失函数计算输出层的$\delta^{x,L}$

　　　　　　d) for $l$= L to 2, 进行反向传播算法计算$\delta^{x,l} = (W^{l+1})^T\delta^{x,l+1}\odot \sigma^{'}(z^{i,l})$

　　　　3) for iter to 1 to MAX：

　　　　　　a) for $l$ = 2 to L, 更新第$l$层的$W^l,b^l$:$$W^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{x,l}(a^{x, l-1})^T $$$$b^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{x,l}$$

　　　　　　b) 如果$W^l,b^l$的变化值都小于停止迭代阈值$\epsilon$，则跳出迭代循环到步骤4。

　　　　4）输出各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$。

4. DNN反向传播算法小结

　　　　有了DNN反向传播算法，我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多，矩阵运算量也很大，直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法，我们在下一篇讲。

（欢迎转载，转载请注明出处。欢迎沟通交流： pinard.liu@ericsson.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

深度神经网络（DNN）反向传播算法(BP)的更多相关文章

神经网络之反向传播算法（BP）公式推导（超详细）
反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是"误差反向传播"的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见 ...
深度学习之反向传播算法（BP）代码实现
反向传播算法实战本文仅仅是反向传播算法的实现,不涉及公式推导,如果对反向传播算法公式推导不熟悉,强烈建议查看另一篇文章神经网络之反向传播算法(BP)公式推导(超详细) 我们将实现一个 4 层的全连接 ...
卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...
神经网络(NN)+反向传播算法（Backpropagation/BP）+交叉熵+softmax原理分析
神经网络如何利用反向传播算法进行参数更新,加入交叉熵和softmax又会如何变化? 其中的数学原理分析:请点击这里.
神经网络与机器学习笔记—反向传播算法(BP)
先看下面信号流图,L=2和M0=M1=M2=M3=3的情况,上面是前向通过,下面部分是反向通过. 1.初始化.假设没有先验知识可用,可以以一个一致分布来随机的挑选突触权值和阈值,这个分布选择为均值等于 ...
（3）Deep Learning之神经网络和反向传播算法
往期回顾在上一篇文章中,我们已经掌握了机器学习的基本套路,对模型.目标函数.优化算法这些概念有了一定程度的理解,而且已经会训练单个的感知器或者线性单元了.在这篇文章中,我们将把这些单独的单元按照一定 ...
【机器学习】反向传播算法 BP
知识回顾 1:首先引入一些便于稍后讨论的新标记方法: 假设神经网络的训练样本有m个,每个包含一组输入x和一组输出信号y,L表示神经网络的层数,S表示每层输入的神经元的个数,SL代表最后一层中处理的单元 ...
深度学习——深度神经网络（DNN）反向传播算法
深度神经网络(Deep Neural Networks,简称DNN)是深度学习的基础. 回顾监督学习的一般性问题.假设我们有$m$个训练样本$\{(x_1, y_1), (x_2, y_2), …, ...
第二节，神经网络中反向传播四个基本公式证明——BackPropagation
假设一个三层的神经网络结构图如下: 对于一个单独的训练样本x其二次代价函数可以写成: C = 1/2|| y - aL||2 = 1/2∑j(yj - ajL)2 ajL=σ(zjL) zjl = ∑ ...

随机推荐

MIPI-3
上一篇文章讲了以下D_PHY层,这只是最底层的,针对于显示,上层由分出了四种,由专门的工作组进行定义,显示器方面叫做display wrok group,主要分为 DSC(display comman ...
objective-c之各种数值
各种数值 NSArray和NSDictionary都只能存储对象,不能存储任何基本类型的数据,如int,float,struct.因此我们可以用对象来封装基本的数值. NSNumber Cocoa提供 ...
java 获取指定日期
//可以设置指定那一天:例如,最近一周,参数传入-7,最近一月,参数传入-30...private String getBeginDate(int date) throws ParseExceptio ...
iOS 之系统机制
iOS 沙盒 iOS 8 之新特性 iOS 操作系统整体架构层次讲解
Win10 的虛擬桌面
Win10 的虛擬桌面我覺得蠻多餘的,平常很少用,除非是像以前的 "切換老闆鍵" ,老闆來了,你不想讓他知道你在幹嘛,趕快切換另外一個桌面. 切換工作視窗:Alt + Tab 叫出 ...
Spark中的wordCount程序实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.s ...
WebStorm界面出现中文乱码（出现口口口）
不少刚刚使用WebStorm软件的童鞋,发现在新建一个项目时,如果输入中文,会显示成口口口.这个问题要怎么解决呢... 点一下界面上那个扳手图标(settings),快捷键Ctrl+Alt+S. 2 ...
HDU-1701-ACMer
题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1701 解题: 好久没做题,好久没写解题思路了,连简答题都不会做了,下午的月赛挂了,我悲剧了,在此发牢骚 ...
Tomcat配置全攻略
tomcat的的下载地址http://www.apache.org/dist/jakarta/tomcat-4/ 1.安装jdk,详细操作请参考本站windows 2k和redhat 8.0下java ...
用NetStream的appendBytes播放FLV
public class MiniStream extends Sprite { private var _buffer:ByteArray = new ByteArray(); private va ...

深度神经网络（DNN）反向传播算法(BP)