循环神经网络-极其详细的推导BPTT

首先明确一下，本文需要对RNN有一定的了解，而且本文只针对标准的网络结构，旨在彻底搞清楚反向传播和BPTT。

反向传播形象描述

什么是反向传播？传播的是什么？传播的是误差，根据误差进行调整。

举个例子：你去买苹果，你说，老板，来20块钱苹果（目标，真实值），老板开始往袋子里装苹果，感觉差不多了（预测），放称上一称，还差点（误差），又装了一个，还差点（调整一次之后的误差），又装了一个...迭代，直到20块钱。

注意每次都是根据误差来进行调整，这点谨记。

BPTT 剖析

RNN网络结构比较复杂，BPTT在梯度计算时也不同于常规。

不同1：权重共享，多个误差

常规是误差分两条路传递，然后每条路分别算w，很容易理解

而权重共享时，一个权重，生成了2个误差，还有个总误差，到底用哪个？怎么反向？假设能反向回去，2个w，怎么处理？咋一想，好乱，

其实是这样的

1. 总误差，分误差，其实是一样的

2. 2个w，需要求和。

一个权重，多个误差，求和

不同2：权重共享，链式传递

也是2个w，咋一看，不知道咋算。

其实是这样的

链式法则

一个权重，多次传递，其梯度中含有w，且容易看出，传递次数越多，w的指数越大

其实rnn比这些不同点更复杂

图不解释了，直接上干货。

首先对网上各种坑爹教程进行补充和完善，总结，当然虽然坑爹，但是对我们理解也是有帮助的。

教程1：教程描述ly1的误差来自ly2 和 next_ly1两个方向（下图），其实说法不错，只是不完整。

补充：

1. ly1的误差来自两个方向，ly2和next_ly1，这两条路都要从各自的误差开始算起。（这里体现了我上面例子里提醒谨记的话）

2. 这里计算的是“单层”的梯度，即单个w的梯度，实际计算BPTT梯度时并不是这样。

这里的公式应该是这样子

教程2：教程定义了中间变量，并用中间变量来表示梯度

各种δ，完全搞不清，公式也没有推导过程。

补充：这里针对单个节点自定义了变量，然后把每个节点直接相加得到总梯度。

总结：这里定义了中间变量δ，之所以定义这个，是因为这个计算比较麻烦，而且要经常用到，这样会很好地简化运算。

这里的公式应该是这样子

这些教程加上我的补充，其实已经可以算出梯度了。

下面我再系统的讲一遍BPTT

还是用这张图，这张图在整个网络架构上比较完整，但是缺乏完整的cell，我在前向传播中标记一下。

前向传播

w_i 表示输入权重，w_h表示隐层权重

反向传播

首先理解如下公式

1. v 和 c并没有多路传递误差，和普通的梯度计算无差别

2. wi wh b都有多路传播

同样设定中间变量，注意这个变量最好是个递推公式，能够大大简化运算，且容易得到规律

初步设定

优化

再优化

这样貌似好多了，递推下去

注意到这里还是传递误差，从上式大概可以看出

1. 这是t时刻隐层cell的误差，当然要乘以总误差

2. t时刻的误差是t时刻到T的一个和，也就是说是从终点一步一步传过来的

3. 每步传递都是从t时刻到传递时刻的连乘，w指数。

4. 大概是这样 w * losst1 + ww * losst2 + www * losst3 + wwww * losst4 + wwwww * losst5 ，越往前传这个式子越长，损失也越传越小

5. 加上激活函数的搅和，其导数经常小于1

w_i同理

循环神经网络-极其详细的推导BPTT的更多相关文章

循环神经网络-RNN进阶
这部分许多内容要类比CNN来进行理解和解释,所以需要对CNN比较熟悉. RNN的特点 1. 权值共享 CNN权值共享,RNN也有权值共享,在入门篇可以看到RNN结构图中,权重使用的是同样的字母为什么 ...
详解循环神经网络(Recurrent Neural Network)
本文结构: 模型训练算法基于 RNN 的语言模型例子代码实现 1. 模型和全连接网络的区别更细致到向量级的连接图为什么循环神经网络可以往前看任意多个输入值循环神经网络种类繁多,今天只看最 ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
循环神经网络(RNN, Recurrent Neural Networks)介绍（转载）
循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neur ...
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？
https://www.zhihu.com/question/34681168 CNN(卷积神经网络).RNN(循环神经网络).DNN(深度神经网络)的内部网络结构有什么区别?修改 CNN(卷积神经网 ...
循环神经网络(RNN)模型与前向反向传播算法
在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...
深度学习之循环神经网络（RNN）
循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络,适合用于处理视频.语音.文本等与时序相关的问题.在循环神经网络中,神经元不但可以接收其他神经元 ...
Recurrent Neural Networks(RNN) 循环神经网络初探
1. 针对机器学习/深度神经网络“记忆能力”的讨论 0x1:数据规律的本质是能代表此类数据的通用模式 - 数据挖掘的本质是在进行模式提取数据的本质是存储信息的介质,而模式(pattern)是信息的一 ...

随机推荐

Python自学:第二章使用制表符或换行符来添加空白
print("Languages:\n\tPython\n\tC\n\tJava") 输出为: Languages: Python C Java
python模块--pickle&json&shelve
使用file文件处理时,写入的必须是str ,否则会报错. 例如:要把一个字典写入文件,写入时会报错 ,就算转换成str格式写入,读取的时候也不能按照dict格式读. >>> inf ...
微信小程序获取腾讯经纬度，得到具体地址
getCityNameOFLocation: function() { var that = this; wx.getLocation({ type: 'wgs84', // 默认为 wgs84 返回 ...
Composer 的学习
一.Composer简介 Composer 是PHP用来管理依赖关系的工具. 使用 composer 的必要前提有: 1.PHP版本要高于PHP5.3.2 2.PHP支持OpenSSL扩展 3.安装有 ...
将本地项目文件托管到 github
1.新建一个本地 repository文件夹 2.将想要托管的项目或文件复制到repository 文件夹下 2. 右键 git bash here 输入命令 git init 生成本地仓库 4. ...
c++ shared_ptr的使用
shared_ptr.是c++为了提高指针安全性而添加的智能指针,方便了内存管理.功能非常强大,非常强大,非常强大(不单单是shared_ptr,配合week_ptr以及enable_share_fr ...
Oracle表空间状态
1.表空间只读查看当前表空间状态 SYS@userdata>column file_name format a60 SYS@userdata>column tablespace_name ...
MySQL5.6复制技术(3)-MySQL主从复制线程状态转变
一.主库线程状态(State)值以下列表显示了主从复制中主服务器的Binlog Dump线程的State列中可能看到的最常见状态(SHOW PROCESSLIST).如果Binlog Dump线程在 ...
docker 安装nginx、php-fpm
运行环境: 创建目录: mkdir -p /Users/sui/docker/nginx/conf.d && mkdir /Users/sui/www && cd /U ...
Python3组播通信编程实现教程（发送者+接收者）
一.说明 1.1 标准组播解释通信分为单播.多播(即组播).广播三种方式单播指发送者发送之后,IP数据包被路由器发往目的IP指定的唯一一台设备的通信形式,比如你现在与web服务器通信就是单播形式 ...

循环神经网络-极其详细的推导BPTT

循环神经网络-极其详细的推导BPTT的更多相关文章

随机推荐

热门专题