1. 前言

之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

2. LSTM模型结构

我们先看下LSTM的整体结构。

由于RNN梯度消失的问题，大牛们对于序列索引位置t的隐藏结构做了改进，可以说通过一些技巧让隐藏结构复杂了起来，来避免梯度消失的问题，这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种，这里我们以最常见的LSTM为例讲述。

2.1 细胞状态

在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态\(h_t\)，还多了另一个隐藏状态，如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State)，记为\(C_t\)。如下图所示：

2.2 LSTM之遗忘门

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示：

图中输入的有上一序列的隐藏状态\(h_{t-1}\)和本序列数据\(x_t\)，通过一个激活函数，一般是sigmoid，得到遗忘门的输出\(f_t\)。由于sigmoid的输出\(f_t\)在[0,1]之间，因此这里的输出\(f_t\)代表了遗忘上一层隐藏细胞状态的概率。用数学表达式即为：

\[
f_{t} = \sigma(W_fh_{t-1} + U_fx_{t} + b_f)
\]
其中\(W_f,U_f,b_f\)为线性关系的系数和偏倚，和RNN中的类似。\(\sigma\)为sigmoid激活函数。

2.3 LSTM之输入门

输入门（input gate）负责处理当前序列位置的输入，它的子结构如下图：

从图中可以看到输入门由两部分组成，第一部分使用了sigmoid激活函数，输出为\(i_t\)第二部分使用了\(tanh\)激活函数，输出为\(a_t\),两者的结果后面会相乘再去更新细胞状态。用数学表达式即为：
\[
i_{t} = \sigma(W_ih_{t-1} + U_ix_{t} + b_i)
\]

\[
a_{t} =tanh(W_ah_{t-1} + U_ax_{t} + b_a)
\]
其中\(W_i,U_i,b_i,W_a,U_a,b_a\)为线性关系的系数和偏倚，和RNN中的类似。\(\sigma\)为sigmoid激活函数。

2.4 LSTM之细胞状态更新

在研究LSTM输出门之前，我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态\(C_t\)。我们来看看从细胞状态\(C_{t-1}\)如何得到\(C_t\)。如下图所示：

细胞状态\(C_t\)由两部分组成，第一部分是\(C_{t-1}\)和遗忘门输出\(f_t\)的乘积，第二部分是输入门的\(i_t\)和\(a_t\)的乘积，即：

\[
C_{t} = C_{t-1} \odot f_{t} + i_{t} \odot a_{t}
\]

2.5 LSTM之输出门

有了新的隐藏细胞状态\(C_t\)，我们就可以来看输出门了，子结构如下：

从图中可以看出，隐藏状态\(h_t\)的更新由两部分组成，第一部分是\(o_t\),它由上一序列的隐藏状态\(h_{t-1}\)和本序列数据\(x_t\)，以及激活函数sigmoid得到，第二部分由隐藏状态\(C_t\)和\(tanh\)激活函数组成, 即：

\[
o_{t} = \sigma(W_oh_{t-1} + U_ox_{t} + b_o)
\]

\[
h_{t} = o_{t} \odot tanh(C_{t})
\]

3. 总结

通过本节的剖析，相信大家对于LSTM的模型结构已经有了解了。当然，有些LSTM的结构和上面的LSTM图稍有不同，但是原理是完全一样的。

3. RNN神经网络-LSTM模型结构的更多相关文章

卷积神经网络(CNN)模型结构
在前面我们讲述了DNN的模型与前向反向传播算法.而在DNN大类中,卷积神经网络(Convolutional Neural Networks,以下简称CNN)是最为成功的DNN特例之一.CNN广泛的应用 ...
Python中利用LSTM模型进行时间序列预测分析
时间序列模型时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征.这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺 ...
LSTM模型与前向反向传播算法
在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结.由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long ...
浅谈RNN、LSTM + Kreas实现及应用
本文主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学 ...
深度学习之从RNN到LSTM
1.循环神经网络概述循环神经网络(RNN)和DNN,CNN不同,它能处理序列问题.常见的序列有:一段段连续的语音,一段段连续的手写文字,一条句子等等.这些序列长短不一,又比较难拆分成一个个独立的样本 ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...
机器学习- RNN以及LSTM的原理分析
概述 RNN是递归神经网络,它提供了一种解决深度学习的另一个思路,那就是每一步的输出不仅仅跟当前这一步的输入有关,而且还跟前面和后面的输入输出有关,尤其是在一些NLP的应用中,经常会用到,例如在NLP ...
循环神经网络LSTM RNN回归：sin曲线预测
摘要:本篇文章将分享循环神经网络LSTM RNN如何实现回归预测. 本文分享自华为云社区<[Python人工智能] 十四.循环神经网络LSTM RNN回归案例之sin曲线预测丨[百变AI秀]& ...
Coursera Deep Learning笔记序列模型（一）循环序列模型[RNN GRU LSTM]
参考1 参考2 参考3 1. 为什么选择序列模型序列模型能够应用在许多领域,例如: 语音识别音乐发生器情感分类 DNA序列分析机器翻译视频动作识别命名实体识别这些序列模型都可以称作使用标 ...

随机推荐

python-线程的暂停, 恢复, 退出
我们都知道python中可以是threading模块实现多线程, 但是模块并没有提供暂停, 恢复和停止线程的方法, 一旦线程对象调用start方法后, 只能等到对应的方法函数运行完毕. 也就是说一旦s ...
UOJ #79 一般图最大匹配带花树
http://uoj.ac/problem/79 一般图和二分图的区别就是有奇环,带花树是在匈牙利算法的基础上对奇环进行缩点操作,复杂度似乎是O(mn)和匈牙利一样. 具体操作是一个一个点做类似匈牙利 ...
org.apache.ibatis.binding.BindingException: Type interface XXX is not known to the MapperRegistry.
动态代理因为namespace的地方写错了
U3D面试题六
U3D面试题大全 1.Unity中碰撞器(Collider)和触发器(Trigger)的区别? 两方都必须要有碰撞体,且一方要有刚体,但在发生碰撞的条件下,Collide碰撞器会生产碰撞反弹的物 ...
继承之final关键字的使用
final关键字使用final关键字坐标识具有"最终的"含义, final可以修饰类.方法.属性.和变量. final修饰类表示该类不能被继承 final修饰方法,则表示该方法不 ...
Revit API PickPoint过滤条件
//过滤选择,加上过滤条件,没有看出来差别. [TransactionAttribute(Autodesk.Revit.Attributes.TransactionMode.Manual)] publ ...
Android:Unable to find explicit activity class
写了两个Activity,确定java代码和xml配置文件没问题之后,运行工程,报错: E/AndroidRuntime(10513): FATAL EXCEPTION: main E/Android ...
Python报错：ImportError: No module named src.data_layer
ImportError: No module named src.data_layer 解决方案: export PYTHONPATH=path/to/modules
Error-MVC：HTTP Error 500.19 - Internal Server Error 无法访问请求的页面，因为该页的相关配置数据无效。
ylbtech-Error-MVC:HTTP Error 500.19 - Internal Server Error 无法访问请求的页面,因为该页的相关配置数据无效. 1.返回顶部 1. IIS ...
Art: Neural Style Transfer
Andrew Ng deeplearning courese-4:Convolutional Neural Network Convolutional Neural Networks: Step by ...

3. RNN神经网络-LSTM模型结构

1. RNN神经网络模型原理

2. RNN神经网络模型的不同结构