背景

反向传播(Backpropagation)是训练神经网络最通用的方法之一，网上有许多文章尝试解释反向传播是如何工作的，但是很少有包括真实数字的例子，这篇博文尝试通过离散的数据解释它是怎样工作的。

Python实现的反向传播

你能使用Python来实现反向传播，我曾经在this Github repo上实现了反向传播算法。

反向传播的可视化

显示神经网络学习时相互作用的可视化，检查我的Neural Network visualization。

另外的资源

如果你发现这个教程对你有用并且想继续学习神经网络以及它的应用，我强烈建议你看Adrian Rosebrock优秀的教程Getting Started with Deep Learning and Python。

概述

对于这个教程，我们将使用2个输入神经元、2个隐含层神经元以及2个输出层神经元组成一个神经网络，另外，隐含层和输出层神经元各包含一个偏差。

这是基本结构：

目的让神经网络工作，我们对权重、偏差和训练的输入/输出设置一个初始值：

反向传播的目的是优化权重，以便于让神经网络学习怎样正确的把任意的输入映射到输出中。

这篇教程的剩余部分我们将要和单一的训练集工作：输入0.05和0.10，我们想要神经网络输出0.01和0.99。

前向反馈

为了开始，当前给定权重和偏差以及输入值0.05和0.10，神经网络预测结果是什么，我们需要把输入值向前传给网络。

我们知道全部的输入值传到每个隐含层神经元中，使用激活函数挤压全部的输入值(在这里，我们使用logistic函数)，对输出层神经元重复这一过程。

计算h1" role="presentation" style="position: relative;">h1h1的输入：

然后我们利用logistic函数把neth1" role="presentation" style="position: relative;">neth1neth1挤压到h1" role="presentation" style="position: relative;">h1h1的输出：

对h2" role="presentation" style="position: relative;">h2h2进行相同的操作：

outh2=0.596884378" role="presentation" style="position: relative;">outh2=0.596884378outh2=0.596884378

对输出层神经元重复操作，使用隐含层神经元的输出作为输出层神经元的输入。

这是o1" role="presentation" style="position: relative;">o1o1的输出：

对o2" role="presentation" style="position: relative;">o2o2进行相同操作：

outo2=0.772928465" role="presentation" style="position: relative;">outo2=0.772928465outo2=0.772928465

计算整体误差

利用平方和误差，我们能计算每个输出层神经元的误差：

例如，目标输出o1" role="presentation" style="position: relative;">o1o1是0.01，但是神经网络输出是0.75136507，因此误差是：

对o2" role="presentation" style="position: relative;">o2o2重复这个过程：

Eo2=0.023560026" role="presentation" style="position: relative;">Eo2=0.023560026Eo2=0.023560026

神经网络整体误差：

反向传播

反向传播的目的是更新网络中每个权重，以便他们真实的输出值是接近目标输出，从而最小化输出层神经元的误差。

输出层

考虑w5" role="presentation" style="position: relative;">w5w5，我们想要知道w5" role="presentation" style="position: relative;">w5w5怎样影响整体误差，即αEtotalαw5" role="presentation" style="position: relative;">αEtotalαw5αEtotalαw5

应用链式规则：

可视化我们正在做的：

我们需要理解这个公式的每一步。

首先，output怎样改变整体误差？

下一步，net input怎样改变o1" role="presentation" style="position: relative;">o1o1输出？

logistic函数的偏导数是输出乘以1减输出：

最后，w5" role="presentation" style="position: relative;">w5w5怎样改变o1" role="presentation" style="position: relative;">o1o1的net input？

把它们结合起来：

你常常能看到delta rule的结合形式：

我们利用αEtotalαouto1" role="presentation" style="position: relative;">αEtotalαouto1αEtotalαouto1和αouto1αneto1" role="presentation" style="position: relative;">αouto1αneto1αouto1αneto1来重写αEtotalαneto1" role="presentation" style="position: relative;">αEtotalαneto1αEtotalαneto1，我们使用这个重新上面的表达式：

因此：

为了减少误差，我们从当前权重减去这个值(乘以一个学习率，设置成0.5)：

我们能重复这个过程得到新的权重w6" role="presentation" style="position: relative;">w6w6，w7" role="presentation" style="position: relative;">w7w7和w8" role="presentation" style="position: relative;">w8w8：

当我们继续下面的反向传输算法时，我们使用初始权重，而不是更新过的权重。

隐含层

下一步，我们将继续向后计算w1" role="presentation" style="position: relative;">w1w1，w2" role="presentation" style="position: relative;">w2w2，w3" role="presentation" style="position: relative;">w3w3和w4" role="presentation" style="position: relative;">w4w4新值，这是我们需要理解的：

可视化：

我们将要对隐含层神经元使用相似的过程，但是稍微不同的是，每个隐含层神经元的输出贡献到多个输出层神经元中。我们知道outh1" role="presentation" style="position: relative;">outh1outh1影响outo1" role="presentation" style="position: relative;">outo1outo1和outo2" role="presentation" style="position: relative;">outo2outo2，因此αEtotalαouth1" role="presentation" style="position: relative;">αEtotalαouth1αEtotalαouth1需要考虑两个输出层神经元的影响：

αEtotalαouth1=αEo1αouth1+αEo2αouth1" role="presentation" style="position: relative;">αEtotalαouth1=αEo1αouth1+αEo2αouth1αEtotalαouth1=αEo1αouth1+αEo2αouth1

先计算αEo1αouth1" role="presentation" style="position: relative;">αEo1αouth1αEo1αouth1:

αEo1αouth1=αEo1αneto1∗αneto1αouth1" role="presentation" style="position: relative;">αEo1αouth1=αEo1αneto1∗αneto1αouth1αEo1αouth1=αEo1αneto1∗αneto1αouth1

使用稍早前计算的值来计算αEo1αneto1" role="presentation" style="position: relative;">αEo1αneto1αEo1αneto1：

αEo1αneto1=αEo1αouto1∗αouto1αneto1=0.74136507∗0.186815602" role="presentation" style="position: relative;">αEo1αneto1=αEo1αouto1∗αouto1αneto1=0.74136507∗0.186815602αEo1αneto1=αEo1αouto1∗αouto1αneto1=0.74136507∗0.186815602

αneto1αouth1" role="presentation" style="position: relative;">αneto1αouth1αneto1αouth1等于w5" role="presentation" style="position: relative;">w5w5:

neto1=w5∗outh1+w6∗outh2+b2∗1" role="presentation" style="position: relative;">neto1=w5∗outh1+w6∗outh2+b2∗1neto1=w5∗outh1+w6∗outh2+b2∗1

αneto1αouth1=w5=0.40" role="presentation" style="position: relative;">αneto1αouth1=w5=0.40αneto1αouth1=w5=0.40

合在一起：

αEo1αouth1=αEo1αneto1∗αneto1αouth1=0.138498562∗0.40=0.055399425" role="presentation" style="position: relative;">αEo1αouth1=αEo1αneto1∗αneto1αouth1=0.138498562∗0.40=0.055399425αEo1αouth1=αEo1αneto1∗αneto1αouth1=0.138498562∗0.40=0.055399425

对αEo2αouto1" role="presentation" style="position: relative;">αEo2αouto1αEo2αouto1做相同的处理：

αEo2αouth1=−0.019049119" role="presentation" style="position: relative;">αEo2αouth1=−0.019049119αEo2αouth1=−0.019049119

因此：

现在我们有αEtotalαouth1" role="presentation" style="position: relative;">αEtotalαouth1αEtotalαouth1，我们还需要计算αouth1αneth1" role="presentation" style="position: relative;">αouth1αneth1αouth1αneth1，然后对每个权重计算αneth1αw" role="presentation" style="position: relative;">αneth1αwαneth1αw：

我们计算h1" role="presentation" style="position: relative;">h1h1对w1" role="presentation" style="position: relative;">w1w1的偏导数：

把它们结合起来：

你也可以如下写：

现在我们能更新w1" role="presentation" style="position: relative;">w1w1：

对w2" role="presentation" style="position: relative;">w2w2，w3" role="presentation" style="position: relative;">w3w3和w4" role="presentation" style="position: relative;">w4w4重复上面过程：

最后，我们更新所有权重，当我们把输入0.05和0.1向前反馈，神经网络的误差为0.298371109，在一次反向传播后，整体误差降到0.291027924，它看似不多，但是重复10000次之后，误差大幅下降到0.000035085，在这之后，我们把输入0.05和0.1向前反馈，那么输出的2个神经元生成0.015912196(vs 目标0.01)和0.984065734(vs 目标0.99)。

原文链接：A Step by Step Backpropagation Example

转https://blog.csdn.net/shaomingliang499/article/details/50587300

CNN反向传播更新权值的更多相关文章

卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...
CNN反向传播算法过程
主模块规格数据输入(加载,调格式,归一化) 定义网络结构设置训练参数调用初始化模块调用训练模块调用测试模块画图初始化模块设置初始化参数(输入通道,输入尺寸) 遍历层(计算尺寸,输入输出 ...
深度学习梯度反向传播出现Nan值的原因归类
症状:前向计算一切正常.梯度反向传播的时候就出现异常,梯度从某一层开始出现Nan值(Nan: Not a number缩写,在numpy中,np.nan != np.nan,是唯一个不等于自身的数). ...
CNN反向传播算法公式
网络结构(6c-2s-12c-2s): 初始化: \begin{align}\notag W \sim U(- \frac{\sqrt{6}}{\sqrt{n_j+n_{j+1}}} , \frac{ ...
CNN的反向传播
在一般的全联接神经网络中,我们通过反向传播算法计算参数的导数.BP 算法本质上可以认为是链式法则在矩阵求导上的运用.但 CNN 中的卷积操作则不再是全联接的形式,因此 CNN 的 BP 算法需要在原始 ...
CNN中卷积层池化层反向传播
参考:https://blog.csdn.net/kyang624823/article/details/78633897 卷积层池化层反向传播: 1,CNN的前向传播 a)对于卷积层,卷积核与输入 ...
[转] 一文弄懂神经网络中的反向传播法——BackPropagation
在看CNN和RNN的相关算法TF实现,总感觉有些细枝末节理解不到位,浮在表面.那么就一点点扣细节吧. 这个作者讲方向传播也是没谁了,666- 原文地址:https://www.cnblogs.com/ ...
NLP教程(3) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
一文弄懂神经网络中的反向传播法——BackPropagation
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进 ...

随机推荐

Laravel-权限系统
总结Auth中间件用于定义未登录用户只能操作哪些权限policy授权策略定义了当前用户实例与进行授权的用户是否匹配,一致才能进一步操作,否则返回403禁止访问异常场景:用户登录 Auth步骤找到需要 ...
python之字符串的拼接总结
加号连接 1.通过+号连接起来逗号连接 2.通过都好连接起来但是,这里值得注意的是,只能用于print打印,赋值组操作会生成元组直接连接 3.直接连接中间有无空格均可 %连接在python2. ...
Springboot整合Mybatis实现级联一对多CRUD操作
在关系型数据库中,随处可见表之间的连接,对级联的表进行增删改查也是程序员必备的基础技能.关于Spring Boot整合Mybatis在之前已经详细写过,不熟悉的可以回顾Spring Boot整合Myb ...
IT兄弟连 HTML5教程 CSS3揭秘 CSS常见的样式属性和值4
6 鼠标光标属性在网页中默认的鼠标指针只有两种,一种是最普通的箭头,另一种是当移动到链接上时出现的“小手”.但现在越来越多的网页都使用了CSS鼠标指针技术,当将鼠标移动到链接上时,可以看到多种不同 ...
SpringBoot 构建 REST 服务
摘要该文章只为了说明如何整合REST服务,并不介绍如何使用,当做笔记吧. MongoDB 以MongoDB为例 maven 依赖 <dependency> <groupId> ...
python的exe反编译
目录 python的exe反编译方法一.使用archive_viewer.py提取pyc 方法二.使用pyinstxtractor.py提取pyc python的exe反编译驱动人生样本为pyth ...
推荐四个phpstorm酷炫实用插件让你写代码的时候不在孤单!
程序员写代码很孤独,每天只能和电脑屏幕交流,想要一个程序员鼓励师妹子,老板又不给配,如何让自己写代码的时候不再孤单呢?今天给大家分享的这四个插件,既实用又好玩,还能提高开发效率,这四个插件主要用到ph ...
XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法
XPath当匹配标签判断text()判断内容失败的问题及解决问题复现在爬取网站的时候我使用XPath去抓取网页上的内容,XPath表达式来精准获取需要的标签内容. 当我对如下一段html代码编写X ...
团队项目之团队展示&选题
团队博文:https://www.cnblogs.com/blackpanda/p/11734448.html 一. 团队展示 1. 队名: Black Panda 2. 队员: 郑伟金 3117 ...
微信退款异步通知报错Illegal key size or default parameters 的解决办法
问题原因: Java几乎各种常用加密算法都能找到对应的实现.因为美国的出口限制,Sun通过权限文件(local_policy.jar.US_export_policy.jar)做了相应限制.因此存在一 ...

CNN反向传播更新权值

背景