神经网络的BP推导过程

下面我们从一个简单的例子入手考虑如何从数学上计算代价函数的梯度，考虑如下简单的神经网络，该神经网络有三层神经元，对应的两个权重矩阵,为了计算梯度我们只需要计算两个偏导数即可：

首先计算第二个权重矩阵的偏导数，即

首先需要在之间建立联系，很容易可以看到的值取决于,而,而又是由取sigmoid得到，最后,所以他们之间的联系可以如下表示：

按照求导的链式法则，我们可以先求对的导数，然后乘以对的导数，即

由于

不难计算

令

上式可以重写为

接下来仅需要计算即可，由于

忽略前面的

以及正则项

设k=1得到

这里只对一个example推导，最后累加即可

因此

得到下面的求导过程

由于

，计算如下，得

至此我们得到了

接下去我们需要求的偏导数，的依赖关系如下：

根据链式求导法则有

分别计算等式右边的三项可得

带入后得

令

上式可以重写为

将上面的结果放在一起，我们得到对两个权重矩阵的偏导数为：

观察上面的四个等式，我们发现

偏导数可以由当层神经元向量与下一层的误差向量相乘得到
当前层的误差向量可以由下一层的误差向量与权重矩阵的乘积得到

所以可以从后往前逐层计算误差向量，然后通过简单的乘法运算得到代价函数对每一层权重矩阵的偏导数。

假设我们有m个训练example,L层神经网络，并且此处考虑正则项，即

初始化：设置(理解为对第l层的权重矩阵的偏导累加值，每一个训练的偏导数累加值，最后再除以样本数得到均值)

For k=1:m

设置 =

通过前向传播算法(FP)计算对各层的预测值,其中l=1,2,3,4…,L

计算最后一层的误差向量,利用后向传播算法(BP)从后至前逐层计算误差向量,计算公式为

更新

End//

计算梯度：

附录：

神经网络的BP推导过程的更多相关文章

ubuntu之路——day5(今天看了浅层神经网络的数学推导过程)
1.初始化 2.前向传播导数比较好理解 3.反向传播全符号积分的推导看得我头有点晕最后唤起我依稀的线代回忆感谢吴恩达老师的反向传播讲解,第一遍看的有点晕,然后仔细看了一下又找了个B站的推导就懂 ...
BP神经网络推导过程详解
BP算法是一种最有效的多层神经网络学习方法,其主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的. 一.多层神经网络结构及其描述 ...
吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network，即ANN)（向量化）手写推导过程（我觉得已经很详细了）
学习了吴恩达老师深度学习工程师第一门课,受益匪浅,尤其是吴老师所用的符号系统,准确且易区分．遵循吴老师的符号系统,我对任意层神经网络模型进行了详细的推导,形成笔记．有人说推导任意层MLP很容易,我 ...
《神经网络的梯度推导与代码验证》之FNN（DNN）前向和反向过程的代码验证
在<神经网络的梯度推导与代码验证>之FNN(DNN)的前向传播和反向梯度推导中,我们学习了FNN(DNN)的前向传播和反向梯度求导,但知识仍停留在纸面.本篇章将基于深度学习框架tensor ...
《神经网络的梯度推导与代码验证》之CNN前向和反向传播过程的代码验证
在<神经网络的梯度推导与代码验证>之CNN的前向传播和反向梯度推导中,我们学习了CNN的前向传播和反向梯度求导,但知识仍停留在纸面.本篇章将基于深度学习框架tensorflow验证我们所 ...
PRML读书会第五章 Neural Networks（神经网络、BP误差后向传播链式求导法则、正则化、卷积网络）
主讲人网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题.今天的第5章神经网络的内 ...
机器学习（一）：梯度下降、神经网络、BP神经网络
这几天围绕论文A Neural Probability Language Model 看了一些周边资料,如神经网络.梯度下降算法,然后顺便又延伸温习了一下线性代数.概率论以及求导.总的来说,学到不少知 ...
机器学习 —— 基础整理（七）前馈神经网络的BP反向传播算法步骤整理
这里把按 [1] 推导的BP算法(Backpropagation)步骤整理一下.突然想整理这个的原因是知乎上看到了一个帅呆了的求矩阵微分的方法(也就是 [2]),不得不感叹作者的功力.[1] 中直接使 ...
神经网络中 BP 算法的原理与 Python 实现源码解析
最近这段时间系统性的学习了 BP 算法后写下了这篇学习笔记,因为能力有限,若有明显错误,还请指正. 什么是梯度下降和链式求导法则假设我们有一个函数 J(w),如下图所示. 梯度下降示意图现在,我们 ...

随机推荐

HTML 5的革新——语义化标签(二)
HTML 5的革新之一:语义化标签二文本元素标签.分组元素标签. HTML 5的革新——语义化标签(一)中介绍了一些HTML5新加的一些节元素,一张页面中结构元素构成网页大体,但是也需要其他内容来填充 ...
java设计模式--建造模式
建造模式建造模式属于对象创建型模式,建造模式的目的为将复杂对象的构建过程与其部件实现方式分离,使得同样的构建过程可以有不同的表示,同时相同的构建过程也能够适用于不同的部件实现方式. 建造模式的适用性 ...
iOS 多尺寸屏幕适配
Point Point可以理解为iOS程序员眼中的大小单位.它是iOS操作系统中的抽象的概念. Rendered Pixels可以理解为UI设计师眼中的大小单位. Physical Pixels 设备 ...
（三）SpringMVC之常用注解
SpringMVC的常用注解注解说明 @Controller 用于说明这个类是一个控制器 @RequestMapping 用于注释一个控制器类或者控制器类的方法 @RequestParam 用于将 ...
机器学习之 PCA （二）
参考 http://www.cnblogs.com/frombeijingwithlove/p/5931872.html
GUI进化--数据与界面分离
http://blog.csdn.net/doon/article/details/5946862 1.何谓数据和界面分离? GUI,即Graphic User Interface,人机交换界面.连接 ...
理解Vue
Vue.js是JavaScript MVVM(Model-View-ViewModel)库,十分简洁,Vue核心只关注视图层,相对AngularJS提供更加简洁.易于理解的API.Vue尽可能通过简单 ...
CPP-基础：友元
友元可以是一个函数,该函数被称为友元函数:友元也可以是一个类,该类被称为友元类. 我们已知道类具有封装和信息隐藏的特性.只有类的成员函数才能访问类的私有成员,程序中的其他函数是无法访问私有成员的.非成 ...
Codeforces Round #275(Div. 2)-C. Diverse Permutation
http://codeforces.com/contest/483/problem/C C. Diverse Permutation time limit per test 1 second memo ...
spark 省份次数统计实例
//统计access.log文件里面IP地址对应的省份,并把结果存入到mysql package access1 import java.sql.DriverManager import org.ap ...

神经网络的BP推导过程

神经网络的BP推导过程

神经网络的BP推导过程的更多相关文章

随机推荐

热门专题