RNN，GRU，LSTM

2019-08-29 17:17:15

问题描述：比较RNN，GRU，LSTM。

问题求解：

循环神经网络 RNN

传统的RNN是维护了一个隐变量 h_t 用来保存序列信息，h_t 基于 x_t 和 h_t-1 来计算 h_t 。

h_t = g( W_i x_t + U_ih_t-1+ b_i)

y_t= g( W_oh_t + b_o)

门控循环神经网络 GRU

门控循环神经网络(Gated Recurrent Unit，GRU)中引入了门控机制。

Update：Γ_u= g( W_u x_t + U_uh_t-1+ b_u)

_ht^~ = g( W_c x_t + U_ch_t-1+ b_c) -Candidate

_ht = Γ_u * h_t^~ + Γ_f * h_t-1

【注】实际使用中还会加入重置门，可以看成计算了 h_t-1和 x_t 之间的相关性

Γr= g( W_r x_t + U_rh_t-1+ b_r)

_ht^~ = g( W_c x_t + Γr U_ch_t-1+ b_c)

长短期记忆网络 LSTM

长短期记忆网络（Long Short Term Memory，LSTM）是循环神经网络的最知名和成功的扩展。由于循环神经网络有梯度消失和梯度爆炸的问题，学习能力有限，在实际的任务中往往不达预期。LSTM可以对有价值的信息进行长期记忆，从而减小循环神经网络的学习难度，因此在语音识别，NER，语言建模等问题中有着广泛的应用。

与传统的循环神经网络对比，LSTM仍然是基于x_t 和 h_t-1 来计算 h_t ，只不过对计算的内部流程进行更加精心的设计。

LSTM中引入了cell memory称为 c_t，h_t 由 cell memory生成。

LSTM在前向传播的时候不仅传递 h_t ，而且还传递 cell memory，cell memory实际形成了一个信息的流通的highway。

LSTM中加入了三个门更新门（也有称为输入门） Γ_u，遗忘门 Γf，输出门 Γo。这里的门的概念可以理解为相关性，本质是三个权重。

Update：Γ_u= g( W_u x_t + U_uh_t-1+ b_u)

Forget：Γ_f= g( W_f x_t + U_fh_t-1+ b_f)

Output：Γ_o= g( W_o x_t + U_oh_t-1+ b_o)

这三个门都是作用在cell memory上的，那么cell memory怎么计算呢？

c_t^~ = g( W_c x_t + U_ch_t-1+ b_c)

c_t = Γ_u * c_t^~ + Γ_f * c_t-1

计算完成 c_t后，就可以根据输出门来求 h_t了。

h_t = Γ_o * c_t

RNN，GRU，LSTM的更多相关文章

NLP教程(5) - 语言模型、RNN、GRU与LSTM
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
Recurrent Neural Network系列4--利用Python，Theano实现GRU或LSTM
yi作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORK ...
【pytorch】关于Embedding和GRU、LSTM的使用详解
1. Embedding的使用 pytorch中实现了Embedding,下面是关于Embedding的使用. torch.nn包下的Embedding,作为训练的一层,随模型训练得到适合的词向量. ...
太深了，梯度传不下去，于是有了highway。干脆连highway的参数都不要，直接变残差，于是有了ResNet。强行稳定参数的均值和方差，于是有了BatchNorm。RNN梯度不稳定，于是加几个通路和门控，于是有了LSTM。 LSTM简化一下，有了GRU。
请简述神经网络的发展史sigmoid会饱和,造成梯度消失.于是有了ReLU.ReLU负半轴是死区,造成梯度变0.于是有了LeakyReLU,PReLU.强调梯度和权值分布的稳定性,由此有了ELU,以及 ...
LSTM梳理，理解，和keras实现（一）
注:本文主要是在http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 这篇文章的基础上理解写成,姑且也可以称作 The understan ...
自己动手实现深度学习框架-7 RNN层--GRU, LSTM
目标这个阶段会给cute-dl添加循环层,使之能够支持RNN--循环神经网络. 具体目标包括: 添加激活函数sigmoid, tanh. 添加GRU(Gate Recurrent U ...
简易机器学习代码（LR，Kmeans，NN，RNN）
Logistic Regression 特别需要注意的是 exp 和 log 的使用. sigmoid 原始表达式为 1 / (1+exp(-z)),但如果直接使用 z=-710,会显示 overfl ...
使用LSTM做电影评论负面检测——使用朴素贝叶斯才51%，但是使用LSTM可以达到99%准确度
基本思路: 每个评论取前200个单词.然后生成词汇表,利用词汇index标注评论(对每条评论的前200个单词编号而已),然后使用LSTM做正负评论检测. 代码解读见[[[评论]]]!embeddin ...
三步理解--门控循环单元(GRU)，TensorFlow实现
1. 什么是GRU 在循环神经⽹络中的梯度计算⽅法中,我们发现,当时间步数较⼤或者时间步较小时,循环神经⽹络的梯度较容易出现衰减或爆炸.虽然裁剪梯度可以应对梯度爆炸,但⽆法解决梯度衰减的问题.通常由于 ...

随机推荐

javascript中的function命名空間與模擬getter、setter
function的命名空間在javascript中,function也可以擁有自己的命名空間例如以下這段程式碼: 12345678 function () { return 'I am A';} A ...
Janet Wu price
上次也是第一次参加百公里是2012的时候,那年的主题是一路有你,和一群同事从深圳湾走到福田,最后累了就回家了,那晚应该是睡得很好吧. 今年是提前报名了,虽然还不确定是否参加.因为说实话,我不喜欢拥堵的 ...
Hexo之旅(四)：文章编写技巧
hexo 编写文章可以使用以下命令创建hexo new "文件名" #创建的文章会在_pots目录下文章的后缀名是以md命名的文件格式,遵循markdown语法,所以编写文章可以使 ...
Java编程Tips
原文: Java编程中"为了性能"尽量要做到的一些地方作者: javatgo 最近的机器内存又爆满了,除了新增机器内存外,还应该好好review一下我们的代码,有很多代码编写过于 ...
想清楚再入！VR硬件创业能“要你命”
每一次跨时代新产品的出现,总会让科技行业疯狂一阵儿,十年前是智能手机,今天自然是VR.自2015年开始,VR火的越来越让人欣喜,让人兴奋,更让人越来越看不清,越来越害怕.数不清的大小品牌义无反顾的杀入 ...
5.7之sql_model
问题发生背景今天在部署项目的时候发现,测试后台接口,直接报 500,仔细一看原来是操作数据库的时候报错了,在本地测试的时候是没遇到类似的问题,数据库的版本是一样的,后面查找资料,说是 MySQL 5 ...
javascript功能插件大集合前端常用插件 js常用插件
转载来源:https://github.com/jobbole/aw... 包管理器管理着 javascript 库,并提供读取和打包它们的工具.•npm – npm 是 javascript 的包管 ...
数据分析你需要知道的操作：ETL和ELT
如果您接触过数据仓库, 您可能会使用 ETL (Extract. Transform. Load) 或 ELT ( Extract.Load. Transform) 将您的数据从不同的来源提取到数据仓 ...
java 发送邮件详细讲解
一.JavaMail概述: JavaMail是由Sun定义的一套收发电子邮件的API,不同的厂商可以提供自己的实现类.但它并没有包含在JDK中,而是作为JavaEE的一部分. 厂商所提供 ...
【ERROR 1064 (42000)】MySQL中使用mysqladmin或set修改root密码时提示语法错误
报错信息: mysql> mysqladmin -uroot -p123456 password 654321; ERROR 1064 (42000): You have an error in ...

RNN，GRU，LSTM

RNN，GRU，LSTM的更多相关文章

随机推荐

热门专题