Recurrent Neural Network(2):BPTT and Long-term Dependencies

在RNN(1)中，我们将带有Reccurent Connection的node依照时间维度展开成了如下的形式：

在每个时刻t=0,1,2,3,...，神经网络的输出都会产生error：E₀,E₁,E₂,E₃,....。同Feedforward Neural Network一样，RNN也使用Backpropagation来更新参数V,W,U，只不过对于RNN，该算法称为Backpropagation Through Time(BPTT)。其算法思路为：根据各个时刻的输出（如果有），计算各个时刻的Loss Function(Error)，而后对各个时刻的loss求和。如果使用mini-batch，则再对batch内的examples求和，计算Cost Function。而后分别对V,W,U求梯度，最后最梯度下降。

在本例中，我们设定从某个时刻的状态s_t，到最终的输出，一路经过：与权重V相乘得到输出值o_t;转换为Softmax输出概率;Cost Function使用Cross-entropy，得到t时刻的误差值E_t。基于此设定，我们来看该误差在V上的梯度：

可以看出，t时刻所产生误差，在V上的梯度，只与当前时刻的状态与输出有关。下面再来看E_t在W上的梯度：

在上式中，s_t的计算公式为:

其中f(z)是activation function，而s_t-1也是w的函数，所以在求梯度时不能简单视其为常量。经过推导后得出：

上式是误差在各个时间分量上的梯度之和，可以看出，某个时间t上的误差E_t,会延时间方向反向传播(Backpropagation Through Time)，如下图：

而上式中的，dS_t/dS_k本身就是链式法则，我们展开后可以得到类似Feedforward NN里Gradient Vanishing Problemactivation function偏导数连程形式。据此可以知晓，虽然E_t在W上的梯度是求和的形式，看似考虑了该误差与所有时间t之间的关系，实际上该误差随着t维度上深度的增加逐渐衰减。而在参数U上面，同样也存在了此Gradient Vanishing的问题。

从而，我们的RNN模型无法获取到Long term dependencies. 例如：The country I traveled with my wife Mia in 2013 summer holiday is Japan ,这里需要填写的词是一个国家的名字。GRU和LSTM会解决此问题。

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
Recurrent Neural Network系列4--利用Python，Theano实现GRU或LSTM
yi作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORK ...
Recurrent Neural Network[survey]
0.引言我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http:/ ...

随机推荐

Golang环境配置
下载下载地址 Go官网下载地址:https://golang.org/dl/ Go官方镜像站(推荐):https://golang.google.cn/dl/ 版本选择安装 Windows安装示 ...
Runnable和Thread区别和比较
在很多博客中用这样一个例子来说明 Runnable更容易实现资源共享,能多个线程同时处理一个资源. 看代码: public static void main(String[] args) { new ...
#10017 传送带（SCOI 2010）（三分套三分）
[题目描述] 在一个 2 维平面上有两条传送带,每一条传送带可以看成是一条线段.两条传送带分别为线段 AB 和线段 CD.lxhgww 在 AB上的移动速度为 P ,在 CD 上的移动速度为 Q,在平 ...
vscode加MinGw三步搭建c/c++调试环境
vscode加MinGw三步搭建c/c++调试环境 step1:安装vscode.MinGw 1.1 vscod常规安装:https://code.visualstudio.com/ 1.2 MinG ...
C# Lodop与C-Lopdop选择打印机
原文:https://www.cnblogs.com/huaxie/p/9766886.html https://www.cnblogs.com/huaxie/p/10857490.html http ...
JS同步执行代码
new Promise(function(){initAppToken()}).then(()=> getApps(this.pageInfo).then ...
mybatis对java自定义注解的使用
转自:https://www.cnblogs.com/sonofelice/p/4980161.html 最近在学习spring和ibatis框架. 以前在天猫实习时做过的一个小项目用到的mybati ...
Spark 计算人员三度关系
1.一度人脉:双方直接是好友 2.二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你.你们的关系是: 你->朋友->陌生人 3.三度人脉:即你朋友 ...
Linux架构之Nginx 负载均衡会话保持
案例No.50:Nginx负载均衡会话保持前期准备环境 web01.web02 (web01.web02.db01.nfs01都要优化基本源)[root@web01 ~]# vim /etc/yum ...
gay绿论第一章两点注意事项
1.不可能事件的概率为0,但概率为0的事件不一定是不可能事件,例如从自然数中取一个数结果是1的概率,从极限角度看,分子是1,分母是∞,结果是0,但它显然是有可能发生的,所以不是不可能事件. 2.两事件 ...

Recurrent Neural Network(2):BPTT and Long-term Dependencies

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

随机推荐

热门专题