《全连接的BP神经网络》

本文主要描述全连接的BP神经网络的前向传播和误差反向传播,所有的符号都用Ng的Machine learning的习惯。下图给出了某个全连接的神经网络图。

1前向传播

1.1前向传播

分别计算第l层神经元的输入和输出;

1.1.1偏执项为1时

向量整体形式:

分量形式:

1.1.2偏执项为b时

向量整体形式:

分量形式:

1.2网络误差

1.2.1偏执项为1时

对于某一个输入样本,它的输出为,它所对应的真实输出应该为,那么,该样本对应的误差E

    (1)

注意到输出层的第k个神经元的输出可以计算如下:

    (2)

那么,误差E可以展开至隐藏层(第L-1层)的形式

    (3)

又注意到隐藏层(第L-1层)的第j个神经元的输出可以计算如下:

    (4)

那么,误差E进一步展开至隐藏层(第L-2层)

    (5)

可以发现,E是权值的函数。

1.2.2偏执项为b时

对于某一个输入样本,它的输出为,它所对应的真实输出应该为,那么,该样本对应的误差E

    (6)

注意到输出层的第k个神经元的输出可以计算如下:

    (7)

那么,误差E可以展开至隐藏层(第L-1层)的形式

    (8)

又注意到隐藏层(第L-1层)的第j个神经元的输出可以计算如下:

    (9)

那么,误差E进一步展开至隐藏层(第L-2层)

    (10)

可以发现,E是权值和偏执项的函数。

2误差反向传播中的敏感度

某一层的敏感度的定义为:网络的误差对该层的输入的偏导数,即

2.1偏执项为1时的敏感度

2.1.1输出层的敏感度

输出层(第L层)的第k个神经元的敏感度定义如下:

为了计算该敏感度,利用链式法则,引入中间变量(第L层的第k个神经元的输出):

    (11)

首先,计算

然后,计算

这里的f为sigmoid函数,有:

从而可以得到:

    (12)

那么,第L层的所有神经元的敏感度为:

    (13)

2.1.2其他层

计算第L-1层的第j个神经元的敏感度,定义如下:

为了计算该敏感度,利用链式法则,引入中间变量(第L-1层的第j个神经元的输出):

    (14)

首先,计算

其中:

则有:

然后,计算

从而可以得到:

    (15)

其中:

那么,第L-1层的所有神经元的敏感度为

    (16)

以上推导是由第L层的敏感度计算第L-1层的敏感度,那么,利用递推方法可以得到第l层的敏感度的计算方法(l=L-1,…,2):

    (17)

2.2偏执项为b时的敏感度

推导过程中,只有一处发生改变,即隐藏层的计算式发生如下改变,但结果并没有改变,所以不会对最终的敏感度的计算公式造成影响:

3梯度的计算

3.1单个样本(偏执项为1时)的梯度

此时的待优化参数只有权值矩阵中的元素,计算误差E对第l层的权值矩阵的偏导数:

对于其中的某一个元素,计算如下:

那么,整个求导矩阵计算如下:

即:

3.2单个样本(偏执项为b时)的梯度

此时的待优化参数为权值矩阵中的元素和偏执项b;

首先计算误差E对第l层的权值矩阵的偏导数:

对于其中的某一个元素,计算如下:

那么,整个求导矩阵计算如下:

接下来,计算误差E对第l层的偏执项矩阵的偏导数:

对于其中的某一个元素,计算如下:

所以,整个偏执项求得到计算如下:

3.3m个样本的梯度求解(未加入其他惩罚项)

如前所述,对于单个样本而言,它的代价函数为E,现在有m个训练样本,它的代价函数应该为所有样本的代价函数的均值,用Ei表示第i个训练样本的代价函数(也就是前文一直使用的代价函数),E表示所有样本的代价函数,则它们有如下关系:

则有:

    (18)

如果有偏执项b的话,则有

    (19)

如果有m个样本,前面计算所得得到的都是矩阵,它们的每一列是每个样本对应的第l层的敏感度和输出值。那么,可以按照如下方式计算m个样本所对应的梯度值:

(1)偏执项为1

    (20)

(2)偏执项为b

    (21)

    (22)

4加了正则化项和稀疏项后

4.1网络误差

加入了正则化项和稀疏项后的网络误差计算公式如下:

    (23)

其中:

J1J2J3的计算方法分别如下:

k个隐藏层中j个神经元的相对熵的计算公式如下:

    (24)

其中:为第k个隐藏层中j个神经元相对于第i个输入样本的激励值,而为第k个隐藏层中j个神经元相对于所有输入样本激励值的均值。

4.2网络代价函数的偏导数

网络代价函数的偏导数:

其中:

(1)偏执项为1时

    (25)

(2)偏执项为b时

    (26)

4.3敏感度的计算

加入了权值惩罚项和稀疏项后,输出层的敏感度计算不发生变化,而其余各层的敏感度公式变为如下:

    (27)

5计算流程

  1. 利用前向传播算法计算各层的激励值

  2. 计算整个网络的代价函数

    利用式 (23)

  3. 利用反向传播算法计算各层的敏感度

  4. 计算代价函数对权值矩阵和偏执项的梯度

    利用式(26)计算代价函数对权值矩阵和偏执项的梯度

全连接的BP神经网络的更多相关文章

  1. 直观理解神经网络最后一层全连接+Softmax

    目录 写在前面 全连接层与Softmax回顾 加权角度 模板匹配 几何角度 Softmax的作用 总结 参考 博客:blog.shinelee.me | 博客园 | CSDN 写在前面 这篇文章将从3 ...

  2. RBF神经网络和BP神经网络的关系

    作者:李瞬生链接:https://www.zhihu.com/question/44328472/answer/128973724来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...

  3. TensorFlow------单层(全连接层)实现手写数字识别训练及测试实例

    TensorFlow之单层(全连接层)实现手写数字识别训练及测试实例: import tensorflow as tf from tensorflow.examples.tutorials.mnist ...

  4. 全连接BP神经网络

    前馈神经网络 前馈神经网络(feedforward neural network)是最朴素的神经网络,通常我们所说的前馈神经网络有两种,一种叫反向传播网络(Back propagation Netwo ...

  5. TensorFlow之DNN(二):全连接神经网络的加速技巧(Xavier初始化、Adam、Batch Norm、学习率衰减与梯度截断)

    在上一篇博客<TensorFlow之DNN(一):构建“裸机版”全连接神经网络>中,我整理了一个用TensorFlow实现的简单全连接神经网络模型,没有运用加速技巧(小批量梯度下降不算哦) ...

  6. TensorFlow之DNN(一):构建“裸机版”全连接神经网络

    博客断更了一周,干啥去了?想做个聊天机器人出来,去看教程了,然后大受打击,哭着回来补TensorFlow和自然语言处理的基础了.本来如意算盘打得挺响,作为一个初学者,直接看项目(不是指MINIST手写 ...

  7. MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网络训练实现及比较(三)

    版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前两篇文章MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网 ...

  8. 基于MNIST数据集使用TensorFlow训练一个包含一个隐含层的全连接神经网络

    包含一个隐含层的全连接神经网络结构如下: 包含一个隐含层的神经网络结构图 以MNIST数据集为例,以上结构的神经网络训练如下: #coding=utf-8 from tensorflow.exampl ...

  9. Python3 卷积神经网络卷积层,池化层,全连接层前馈实现

    # -*- coding: utf-8 -*- """ Created on Sun Mar 4 09:21:41 2018 @author: markli " ...

随机推荐

  1. ArcGIS Engine中如何获取Map中已经选择的要素呢

    1.使用IEnumFeturea对象获取map中的FeatureSelection,该方法可以获取所有图层的选择要素.IMap中的FeatureSelection可不是IFeatureSelectio ...

  2. linux下64位汇编的系统调用系列

    http://blog.csdn.net/mydo/article/category/3084893

  3. GDB-Dashboard-GDB可视化界面

    项目地址 https://github.com/cyrus-and/gdb-dashboard 项目介绍 gdb-dashboard是一个gdb的可视化界面,可以通过web或者终端来现实可视化信息,支 ...

  4. 前后端分离--mock

    fekit mock 数据 > fekit server -m mock.config 配置mock.config 支持正则 module.exports = { /queryProductDe ...

  5. Cracking the coding interview

    写在开头 最近忙于论文的开题等工作,还有阿里的实习笔试,被虐的还行,说还行是因为自己的水平或者说是自己准备的还没有达到他们所需要人才的水平,所以就想找一本面试的书<Cracking the co ...

  6. 8个开发必备的PHP功能(转)

    又是好几天没写博客,今天看到了个不错的文章,就转载到自己的博客,好以后查询方便. 1.传递任意数量的函数参数 我们在.NET或者JAVA编程中,一般函数参数个数都是固定的,但是PHP允许你使用任意个数 ...

  7. Node.js + Express + Mongodb 开发搭建个人网站(二)

    二.路由 1.打开 routes/index.js ,这个意思就是  捕获到访问主页的get请求: 并通过 app.js 分配到对应的路由里: 看到这里,打开 http://127.0.0.1:300 ...

  8. PHP 数组转字符串,与字符串转数组

    implode 使用一个字符串将数组变成字符串 <?php $array = array('lastname', 'email', 'phone'); $comma_separated = im ...

  9. SOCKET,TCP/UDP,HTTP,FTP

    (一)TCP/UDP,SOCKET,HTTP,FTP简析 TCP/IP是个协议组,可分为三个层次:网络层.传输层和应用层: 网络层:IP协议.ICMP协议.ARP协议.RARP协议和BOOTP协议 传 ...

  10. javascript类继承系列四(组合继承)

    原理: 结合了原型链和对象伪装各自优点的方式,基本思路是:使用原型链继承原型上的属性和方法,使用对象伪装继承实例属性,通过定义原型方法,允许函数复用,并运行每个实例拥有自己的属性 function B ...