多层神经网络BP算法原理及推导

　　首先什么是人工神经网络？简单来说就是将单个感知器作为一个神经网络节点，然后用此类节点组成一个层次网络结构，我们称此网络即为人工神经网络（本人自己的理解）。当网络的层次大于等于3层（输入层+隐藏层（大于等于1）+输出层）时，我们称之为多层人工神经网络。

1、神经单元的选择

　　那么我们应该使用什么样的感知器来作为神经网络节点呢？在上一篇文章我们介绍过感知器算法，但是直接使用的话会存在以下问题：

　　1）感知器训练法则中的输出

　　由于sign函数时非连续函数，这使得它不可微，因而不能使用上面的梯度下降算法来最小化损失函数。

　　2）增量法则中的输出为；

　　每个输出都是输入的线性组合，这样当多个线性单元连接在一起后最终也只能得到输入的线性组合，这和只有一个感知器单元节点没有很大不同。

　　为了解决上面存在的问题，一方面，我们不能直接使用线性组合的方式直接输出，需要在输出的时候添加一个处理函数；另一方面，添加的处理函数一定要是可微的，这样我们才能使用梯度下降算法。

　　满足上面条件的函数非常的多，但是最经典的莫过于sigmoid函数，又称Logistic函数，此函数能够将内的任意数压缩到(0,1)之间，因此这个函数又称为挤压函数。为了将此函数的输入更加规范化，我们在输入的线性组合中添加一个阀值，使得输入的线性组合以0为分界点。

　　sigmoid函数：

　　其函数曲线如图1.1所示。

图1.1 sigmoid函数曲线^[2]

　　此函数有个重要特性就是他的导数：

　　有了此特性在计算它的梯度下降时就简便了很多。

　　另外还有双曲函数tanh也可以用来替代sigmoid函数，二者的曲线图比较类似。

2、反向传播算法又称BP算法（Back Propagation）

现在，我们可以用上面介绍的使用sigmoid函数的感知器来搭建一个多层神经网络，为简单起见，此处我们使用三层网络来分析。假设网络拓补如图2.1所示。

图2.1 BP网络拓补结构^[3]

　　网络的运行流程为：当输入一个样例后，获得该样例的特征向量，再根据权向量得到感知器的输入值，然后使用sigmoid函数计算出每个感知器的输出，再将此输出作为下一层感知器的输入，依次类推，直到输出层。

　　那么如何确定每个感知器的权向量呢？这时我们需要使用反向传播算法来逐步进行优化。在正式介绍反向传播算法之前，我们先继续进行分析。

　　在上一篇介绍感知器的文章中，为了得到权向量，我们通过最小化损失函数来不断调整权向量。此方法也适用于此处求解权向量，首先我们需要定义损失函数，由于网络的输出层有多个输出结点，我们需要将输出层每个输出结点的差值平方求和。于是得到每一个训练样例的损失函数为：（前面加个0.5方便后面求导使用）

　　在多层的神经网络中，误差曲面可能有多个局部极小值，这意味着使用梯度下降算法找到的可能是局部极小值，而不是全局最小值。

　　现在我们有了损失函数，这时可以根据损失函数来调整输出结点中的输入权向量，这类似感知器中的随机梯度下降算法，然后从后向前逐层调整权重，这就是反向传播算法的思想。

具有两层sigmoid单元的前馈网络的反向传播算法：

1）将网络中的所有权值随机初始化。

2）对每一个训练样例，执行如下操作：

　　A）根据实例的输入，从前向后依次计算，得到输出层每个单元的输出。然后从输出层开始反向计算每一层的每个单元的误差项。

　　B）对于输出层的每个单元k，计算它的误差项：

　　C）对于网络中每个隐藏单元h，计算它的误差项：

　　D）更新每个权值：

符号说明：

x_ji：结点i到结点j的输入，w_ji表示对应的权值。

outputs：表示输出层结点集合。

整个算法与delta法则的随机梯度下降算法类似，算法分析如下：

　　1）权值的更新方面，和delta法则类似，主要依靠学习速率，该权值对应的输入，以及单元的误差项。

　　2）对输出层单元，它的误差项是(t-o)乘以sigmoid函数的导数o_k(1-o_k)，这与delta法则的误差项有所不同，delta法则的误差项为(t-o)。

　　3）对于隐藏层单元，因为缺少直接的目标值来计算隐藏单元的误差，因此需要以间接的方式来计算隐藏层的误差项对受隐藏单元h影响的每一个单元的误差进行加权求和，每个误差权值为w_kh, w_kh就是隐藏单元h到输出单元k的权值。

3、反向传播算法的推导

　　算法的推导过程主要是利用梯度下降算法最小化损失函数的过程，现在损失函数为：

　　对于网络中的每个权值wji，计算其导数：

　　1）若j是网络的输出层单元

　　对net_j的求导：

　　其中：

　　所以有：

　　为了使表达式简洁，我们使用：

　　权值的改变朝着损失函数的负梯度方向，于是有权值改变量：

2）若j是网络中的隐藏单元

　　由于隐藏单元中w的值通过下一层来间接影响输入，故使用逐层剥离的方式来进行求导：

　　因为：

　　所以：

　　同样，我们使用：

　　所以权值变化量：

4、算法的改进

　　反向传播算法的应用非常的广泛，为了满足各种不同的需求，产生了很多不同的变体，下面介绍两种变体：

　　1）增加冲量项

　　此方法主要是修改权值更新法则。他的主要思想在于让第n次迭代时的权值的更新部分依赖于第n-1次的权值。

　　其中0<=a<1：称为冲量的系数。加入冲量项在一定程度上起到加大搜索步长的效果，从而能更快的进行收敛。另一方面，由于多层网络易导致损失函数收敛到局部极小值，但通过冲量项在某种程度上可以越过某些狭窄的局部极小值，达到更小的地方。

　　2）学习任意的深度的无环网络

　　在上述介绍的反向传播算法实际只有三层，即只有一层隐藏层的情况，要是有很多隐藏层应当如何进行处理？

　　现假设神经网络共有m+2层，即有m层的隐藏层。这时，只需要变化一个地方即可得到具有m个隐藏层的反向传播算法。第k层的单元r的误差的值由更深的第k+1层的误差项计算得到：

5、总结

　　对于反向传播算法主要从以下几个方面进行总结：

1）局部极小值

　　对于多层网络，误差曲面可能含有多个不同的局部极小值，梯度下降可能导致陷入局部极小值。缓解局部极小值的方法主要有增加冲量项，使用随机梯度下降，多次使用不同的初始权值训练网络等。

2）权值过多

　　当隐藏节点越多，层数越多时，权值成倍的增长。权值的增长意味着对应的空间的维数越高，过高的维数易导致训练后期的过拟合。

4）算法终止策略

　　当迭代次数达到设定的阀值时，或者损失函数小于设定的阀值时，或

3）过拟合

　　当网络的训练次数过多时，可能会出现过拟合的情况。解决过拟合主要两种方法：一种是使用权值衰减的方式，即每次迭代过程中以某个较小的因子降低每个权值；另一种方法就是使用验证集的方式来找出使得验证集误差最小的权值，对训练集较小时可以使用交叉验证等。

　　另外，神经网络中还有非常多的问题可以讨论，比如隐藏节点数量的多少，步长是否固定等，在此不展开讨论。

展望：

　　关于神经网络现在已有较多的研究，也产生了很多新的扩展算法，比如卷积神经网络，深度神经网络，脉冲神经网络等。尤其是脉冲神经网络被称为第三代神经网络，这些神经网络算法在未来将会有越来越多的应用，比如深度神经网络在图像识别，语音识别等领域已经取得了非常好的效果。

　　最后，此文主要参考Mitchell的机器学习课本撰写而成，如有错误欢迎指正！

参考文献：

[1] Tom M. Mitchell, 机器学习。

[2] Keep Going, http://www.cnblogs.com/startover/p/3143763.html

[3] HaHack, http://hahack.com/reading/ann2/

多层神经网络BP算法原理及推导的更多相关文章

深度学习——前向传播算法和反向传播算法（BP算法）及其推导
1 BP算法的推导图1 一个简单的三层神经网络图1所示是一个简单的三层(两个隐藏层,一个输出层)神经网络结构,假设我们使用这个神经网络来解决二分类问题,我们给这个网络一个输入样本,通过前向运算得到 ...
【机器学习】算法原理详细推导与实现(六):k-means算法
[机器学习]算法原理详细推导与实现(六):k-means算法之前几个章节都是介绍有监督学习,这个章解介绍无监督学习,这是一个被称为k-means的聚类算法,也叫做k均值聚类算法. 聚类算法在讲监督 ...
人工神经网络反向传播算法（BP算法）证明推导
为了搞明白这个没少在网上搜,但是结果不尽人意,最后找到了一篇很好很详细的证明过程,摘抄整理为 latex 如下. (原文:https://blog.csdn.net/weixin_41718085/a ...
神经网络BP算法C和python代码
上面只显示代码. 详BP原理和神经网络的相关知识,请参阅:神经网络和反向传播算法推导首先是前向传播的计算: 输入: 首先为正整数 n.m.p.t,分别代表特征个数.训练样本个数.隐藏层神经元个数.输 ...
BP算法的矩阵推导
目录 1. 需要的微积分知识 1.1 导数 1.2 求导的链式法则 2. 梯度下降法 2.1 梯度 2.2 梯度算法的解释 3.误差反向传播算法 3.1 理论推导 3.1.1 符号说明 3.1.2 推 ...
TensorFlow系列专题（五）：BP算法原理
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/ ,学习更多的机器学习.深度学习的知识! 一．反向传播算法简介二．前馈计算的过程第一层隐藏层的计算第 ...
强化学习-学习笔记7 | Sarsa算法原理与推导
Sarsa算法是 TD算法的一种,之前没有严谨推导过 TD 算法,这一篇就来从数学的角度推导一下 Sarsa 算法.注意,这部分属于 TD算法的延申. 7. Sarsa算法 7.1 推导 TD ta ...
分布式系列文章——Paxos算法原理与推导
Paxos算法在分布式领域具有非常重要的地位.但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难. 网上有很多讲解Paxos算法的文章,但是质量参差不齐.看了很多关于Paxos的资 ...
AdaBoost 算法原理及推导
AdaBoost(Adaptive Boosting):自适应提升方法. 1.AdaBoost算法介绍 AdaBoost是Boosting方法中最优代表性的提升算法.该方法通过在每轮降低分对样例的权重 ...

随机推荐

Android --- 读取系统资源函数getResources()小结
http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2012/1201/655.html 编辑推荐:稀土掘金,这是一个针对技术开发者的一个应用, ...
jquery判断节点是否存在
if($('.onloadMore').length>0){ return '节点存在'; }else{ return '节点不存在'; }
用telnet命令，SMTP发送邮件
邮件的发送是基于smtp协议的.邮件客户端软件给smtp服务器传送邮件和smtp服务器之间传送邮件也都是基于smtp协议的.邮件客户端软件接受邮件是主要基于pop3协议的. 下面介绍利用windows ...
集合问题离线+并查集 HDU 3938
题目大意:给你n个点,m条边,q个询问,每条边有一个val,每次询问也询问一个val,定义:这样条件的两个点(u,v),使得u->v的的价值就是所有的通路中的的最长的边最短.问满足这样的点对有几 ...
OpenGL学习-------visual studio 2010配置和第一个OpenGL程序讲解
OpenGL作为当前主流的图形API之一,它在一些场合具有比DirectX更优越的特性. 1.与C语言紧密结合. OpenGL命令最初就是用C语言函数来进行描述的,对于学习过C语言的人来讲,OpenG ...
Gulp自动构建前端开发一体化
gulp是基于Nodejs的自动任务运行器, 她能自动化地完成 javascript/coffee/sass/less/html/image/css 等文件的的测试.检查.合并.压缩.格式化.浏览器自 ...
同花顺核新下单程序的"界面不操作超时时间"的设定
"界面不操作超时时间"的设定同花顺核新下单程序的'界面不操作超时时间'的设定系统> 系统设置> 界面设置> 界面不操作超时时间(分): 在这个输入框里填上个3 ...
Base64编码与图片互转
import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import ...
Android网络开发之Volley--Volley基本用法ImageRequest(三)
1.ImageRequest用法和StringRequest一样,主要分为3步: (1).实例化一个RequestQueue对象 (2).设置ImageRequest对象参数,并将ImageReque ...
Bluez SPP实现代码分析(转)
源:http://blog.csdn.net/walkingman321/article/details/7218705 本文分析蓝牙协议栈中蓝牙转串口(SPP)部分的实现. 1. 基本概念 Blu ...

多层神经网络BP算法 原理及推导

多层神经网络BP算法 原理及推导的更多相关文章

随机推荐

热门专题

多层神经网络BP算法原理及推导

多层神经网络BP算法原理及推导的更多相关文章