Recurrent Neural Network(2):BPTT and Long-term Dependencies

在RNN(1)中，我们将带有Reccurent Connection的node依照时间维度展开成了如下的形式：

在每个时刻t=0,1,2,3,...，神经网络的输出都会产生error：E₀,E₁,E₂,E₃,....。同Feedforward Neural Network一样，RNN也使用Backpropagation来更新参数V,W,U，只不过对于RNN，该算法称为Backpropagation Through Time(BPTT)。其算法思路为：根据各个时刻的输出（如果有），计算各个时刻的Loss Function(Error)，而后对各个时刻的loss求和。如果使用mini-batch，则再对batch内的examples求和，计算Cost Function。而后分别对V,W,U求梯度，最后最梯度下降。

在本例中，我们设定从某个时刻的状态s_t，到最终的输出，一路经过：与权重V相乘得到输出值o_t;转换为Softmax输出概率;Cost Function使用Cross-entropy，得到t时刻的误差值E_t。基于此设定，我们来看该误差在V上的梯度：

可以看出，t时刻所产生误差，在V上的梯度，只与当前时刻的状态与输出有关。下面再来看E_t在W上的梯度：

在上式中，s_t的计算公式为:

其中f(z)是activation function，而s_t-1也是w的函数，所以在求梯度时不能简单视其为常量。经过推导后得出：

上式是误差在各个时间分量上的梯度之和，可以看出，某个时间t上的误差E_t,会延时间方向反向传播(Backpropagation Through Time)，如下图：

而上式中的，dS_t/dS_k本身就是链式法则，我们展开后可以得到类似Feedforward NN里Gradient Vanishing Problemactivation function偏导数连程形式。据此可以知晓，虽然E_t在W上的梯度是求和的形式，看似考虑了该误差与所有时间t之间的关系，实际上该误差随着t维度上深度的增加逐渐衰减。而在参数U上面，同样也存在了此Gradient Vanishing的问题。

从而，我们的RNN模型无法获取到Long term dependencies. 例如：The country I traveled with my wife Mia in 2013 summer holiday is Japan ,这里需要填写的词是一个国家的名字。GRU和LSTM会解决此问题。

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
Recurrent Neural Network系列4--利用Python，Theano实现GRU或LSTM
yi作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORK ...
Recurrent Neural Network[survey]
0.引言我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech ...
Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...
(zhuan) Recurrent Neural Network
Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http:/ ...

随机推荐

HDU-1394 Minimum Inversion Number (逆序数，线段树或树状数组)
The inversion number of a given number sequence a1, a2, ..., an is the number of pairs (ai, aj) that ...
Python中map和reduce函数？？
①从参数方面来讲: map()函数: map()包含两个参数,第一个是参数是一个函数,第二个是序列(列表或元组).其中,函数(即map的第一个参数位置的函数)可以接收一个或多个参数. reduce() ...
Xilinx源语-------FDRE
1.源语---FDRE FDRE代表一个单D型触发器,含的有五个信号分别为: 数据(data,D).时钟使能(Clock enable,CE).时钟(Clock).同步复位(synchronous ...
JVM虚拟机基础知识
1. Java的发展 Java之父:詹姆斯·高斯林 2. Java的技术体系 Java 程序设计语言 JVM class文件格式编译器 Java API 第三方Java类库三个版本: Java S ...
java 中的引用类型
GC基本原理 GC (Garbage Collection)的基本原理:将内存中不再被使用的对象进行回收,GC中用于回收的方法称为收集器,由于GC需要消耗一些资源和时间,Java在对对象的生命周期特征 ...
Tomcat支持SSL加密网站
配置Tomcat,以支持SSL对网站加密,关键性配置如下: 思路:在tomcat服务器web1上做相应配置->客户端测试. 1.创建加密用的私钥和证书文件 [root@web1 ~]# keyt ...
centos7 内网可达，外网不可达
参考:https://www.cnblogs.com/operationhome/p/10207257.html 网关地址改为192.168.1.1
JUC并发工具类
原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/11449367.html java.util.concurrent及其子包,集中了Java并发的各种基础 ...
Change the environment variable for python code running
python程序运行中改变环境变量: Trying to change the way the loader works for a running Python is very tricky; pr ...
spring security 权限框架原理
spring security 权限框架原理

Recurrent Neural Network(2):BPTT and Long-term Dependencies

Recurrent Neural Network(2):BPTT and Long-term Dependencies的更多相关文章

随机推荐

热门专题