第二节，神经网络中反向传播四个基本公式证明—

假设一个三层的神经网络结构图如下：

对于一个单独的训练样本x其二次代价函数可以写成：

C = 1/2|| y - a^L||² = 1/2∑_j(y_j - a_j^L)²

a_j^L=σ(z_j^L)

z_j^l = ∑_kω_jk^la_k^l-1 + b_j^l

代价函数C是a_j^L的函数，a_j^L又是z_j^L的函数，z_j^L又是ω_jk^L的函数，同时又是a_k^L-1的函数......

证明四个基本方程(BP1-BP4)，所有这些都是多元微积分的链式法则的推论

δ_j^L = (∂C/∂a_j^L)σ'(z_j^L) (BP1)

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l) (BP2)

　　　 ∂C/∂ω_jk^l= δ_j^la_k^l-1(BP3)

∂C/∂b_j^l= δ_j^l(BP4)

1.让我们从方程(BP1)开始，它给出了输出误差δ^L的表达式。

δ_j^L = ∂C/∂z_j^L

应用链式法则，我们可以就输出激活值的偏导数的形式重新表示上面的偏导数：

δ_j^L = ∑_k(∂C/∂a_k^L)(∂a_k^L/∂z_j^L)

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_k^L只依赖于当k=j时第j^th个神经元的带权输入z_j^L。所以当k≠j

时，∂a_k^L/∂z_j^L=0。结果简化为：

δ_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)

由于a_j^L=σ(z_j^L)，右边第二项可以写成σ'(z_j^L)，方程变成

δ_j^L = (∂C/∂a_j^L)σ‘(z_j^L)

2.证明BP2，它给出了下一层误差δ^l+1的形式表示误差δ^l。为此我们要以δ_k^l+1=∂C/∂z_k^l+1的形式重写 δ_j^l = ∂C/∂z_j^l

δ_j^l = ∂C/∂z_j^l

=∑_k(∂C/∂z_k^l+1)(∂z_k^l+1/∂z_j^l)

=∑_k(∂z_k^l+1/∂z_j^l)δ_k^l+1

这里最后一行我们交换了右边的两项，并用δ_k^l+1的定义带入。为此我们对最后一行的第一项求值，

注意：

z_k^l+1 = ∑_jω_kj^l+1a_j^l + b_k^l+1 = ∑_jω_kj^l+1σ(z_j^l) + b_k^l+1

做微分得到

∂z_k^l+1 /∂z_j^l = ω_kj^l+1σ'(z_j^l)

带入上式:

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l)

3.证明BP3。计算输出层∂C/∂ω_jk^L：

∂C/∂ω_jkL = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂ω_jk^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重ω_jk^L。所以当k≠j

　时，∂a_m^L/∂ω_jk^L=0。结果简化为：

　　 ∂C/∂ω_jk^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂ω_jk^L)

= δ_j^La_k^L-1

计算输入层上一层(L-1):

∂C/∂ω_jk^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂ω_jk^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)a_k^L-2

= δ_j^L-1a_k^L-2

对于处输入层的任何一层(l)：

∂C/∂ω_jk^l= (∂C/∂z_j^l )(∂z_j^l/∂ω_jk^l) = δ_j^la_k^l-1

4.证明BP4。计算输出层∂C/∂b_j^L：

∂C/∂b_j^L = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂b_j^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重b_j^L。所以当k≠j

　时，∂a_m^L/∂b_j^L=0。结果简化为：

　　 ∂C/∂b_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂b_j^L)

= δ_j^L

计算输入层上一层(L-1):

∂C/∂b_j^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂b_j^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)

= δ_j^L-1

对于处输入层的任何一层(l)：

∂C/∂b_j^l= (∂C/∂z_j^l )(∂z_j^l/∂b_j^l) = δ_j^l

参考文献

[1]]神经网络基础

[2]Neural Networks and Deep Learning. Michael A. Nielsen

[3]一文弄懂神经网络中的反向传播法

[4]深度神经网络（DNN）反向传播算法(BP)

第二节，神经网络中反向传播四个基本公式证明——BackPropagation的更多相关文章

[AI]神经网络章2　神经网络中反向传播与梯度下降的基本概念
反向传播和梯度下降这两个词,第一眼看上去似懂非懂,不明觉厉.这两个概念是整个神经网络中的重要组成部分,是和误差函数/损失函数的概念分不开的. 神经网络训练的最基本的思想就是:先“蒙”一个结果,我们叫预 ...
深度学习与CV教程(4) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
使用PyTorch构建神经网络以及反向传播计算
使用PyTorch构建神经网络以及反向传播计算前一段时间南京出现了疫情,大概原因是因为境外飞机清洁处理不恰当,导致清理人员感染.话说国外一天不消停,国内就得一直严防死守.沈阳出现了一例感染人员,我在 ...
NLP教程(3) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
神经网络之反向传播算法（BP）公式推导（超详细）
反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是"误差反向传播"的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见 ...
关于 RNN 循环神经网络的反向传播求导
关于 RNN 循环神经网络的反向传播求导本文是对 RNN 循环神经网络中的每一个神经元进行反向传播求导的数学推导过程,下面还使用 PyTorch 对导数公式进行编程求证. RNN 神经网络架构一个 ...
Andrej Karpathy | 详解神经网络和反向传播（基于 micrograd）
只要你懂 Python,大概记得高中学过的求导知识,看完这个视频你还不理解反向传播和神经网络核心要点的话,那我就吃鞋:D Andrej Karpathy,前特斯拉 AI 高级总监.曾设计并担任斯坦福深 ...
卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...

随机推荐

Partition算法以及其应用详解上(Golang实现)
最近像在看闲书一样在看一本<啊哈!算法> 当时在amazon上面闲逛挑书,看到巨多人推荐这本算法书,说深入浅出简单易懂便买来阅读.实际上作者描述算法的能力的确令人佩服.就当复习常用算法吧. ...
python数据结构与算法第十七天【概率算法】
1. 古典概率例如:麻将开始摸到的14张牌中无将的概率,两张相同的牌即为将,则有: 所有的情况:从136张牌中选出14张牌,为C136-14 无将的情况:将不同的牌分组,共有34组,依次取14张牌, ...
Codeforces Round #467 Div. 1
B:显然即相当于能否找一条有长度为奇数的路径使得终点出度为0.如果没有环直接dp即可.有环的话可以考虑死了的spfa,由于每个点我们至多只需要让其入队两次,复杂度变成了优秀的O(kE).事实上就是拆点 ...
【AGC013C】Ants on a Circle 弹性碰撞
题目大意一个长度为$lm$的环上有$n$只蚂蚁,告诉你每只蚂蚁的位置和朝向,每只蚂蚁会向前爬,速度为$1m/s$,两只蚂蚁相遇后都会掉头,问你$t$秒后每只蚂蚁的位置. \(n\le ...
Mac 部分软件介绍
1.Pickle可帮你轻松的安装 PHP 扩展,支持所有平台.基于 Composer(PHP的依赖管理器)开发.-----------扩展安装 2.composer parallel install ...
MT【302】利用值域宽度求范围
已知$f(x)=\ln x+ax+b (a>0)$在区间$[t,t+2],(t>0)$上的最大值为$M_t(a,b)$.若$\{b|M_t(a,b)\ge\ln2 +a\}=R$,则实数$ ...
python学习日记（函数进阶）
命名空间内置命名空间存放了python解释器为我们提供的名字:print,input...等等,他们都是我们熟悉的,拿过来就可以用的方法. 内置的名字在启动解释器(程序运行前)的时候被加载在内存里 ...
Hdoj 1159.Common Subsequence 题解
Problem Description A subsequence of a given sequence is the given sequence with some elements (poss ...
shell中，2>&1详解
我们在Linux下经常会碰到nohup command>/dev/null 2>&1 &这样形式的命令.首先我们把这条命令大概分解下,首先就是一个nohup表示当前用户和系 ...
洛谷 P3121 【[USACO15FEB]审查（黄金）Censoring (Gold)】
被自己学校OJ的毒瘤测评姬卡到自闭 Hash+栈+优化暴力其实思路也很简单,就是把单词存进一个结构体,记录其哈希值和长度,然后就可以开始匹配了但是,理论复杂度很高,为$O(n*length)$ ...

第二节，神经网络中反向传播四个基本公式证明——BackPropagation

第二节，神经网络中反向传播四个基本公式证明——BackPropagation的更多相关文章

随机推荐

热门专题