1. RNN神经网络模型原理

2. RNN神经网络模型的不同结构

3. RNN神经网络-LSTM模型结构

1. 前言

之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

2. LSTM模型结构

我们先看下LSTM的整体结构。

由于RNN梯度消失的问题,大牛们对于序列索引位置t的隐藏结构做了改进,可以说通过一些技巧让隐藏结构复杂了起来,来避免梯度消失的问题,这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种,这里我们以最常见的LSTM为例讲述。

2.1 细胞状态

在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态\(h_t\),还多了另一个隐藏状态,如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State),记为\(C_t\)。如下图所示:

2.2 LSTM之遗忘门

遗忘门(forget gate)顾名思义,是控制是否遗忘的,在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示:

图中输入的有上一序列的隐藏状态\(h_{t-1}\)和本序列数据\(x_t\),通过一个激活函数,一般是sigmoid,得到遗忘门的输出\(f_t\)。由于sigmoid的输出\(f_t\)在[0,1]之间,因此这里的输出\(f_t\)代表了遗忘上一层隐藏细胞状态的概率。用数学表达式即为:

\[
f_{t} = \sigma(W_fh_{t-1} + U_fx_{t} + b_f)
\]
其中\(W_f,U_f,b_f\)为线性关系的系数和偏倚,和RNN中的类似。\(\sigma\)为sigmoid激活函数。

2.3 LSTM之输入门

输入门(input gate)负责处理当前序列位置的输入,它的子结构如下图:

从图中可以看到输入门由两部分组成,第一部分使用了sigmoid激活函数,输出为\(i_t\)第二部分使用了\(tanh\)激活函数,输出为\(a_t\),两者的结果后面会相乘再去更新细胞状态。用数学表达式即为:
\[
i_{t} = \sigma(W_ih_{t-1} + U_ix_{t} + b_i)
\]

\[
a_{t} =tanh(W_ah_{t-1} + U_ax_{t} + b_a)
\]
其中\(W_i,U_i,b_i,W_a,U_a,b_a\)为线性关系的系数和偏倚,和RNN中的类似。\(\sigma\)为sigmoid激活函数。

2.4 LSTM之细胞状态更新

在研究LSTM输出门之前,我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态\(C_t\)。我们来看看从细胞状态\(C_{t-1}\)如何得到\(C_t\)。如下图所示:


细胞状态\(C_t\)由两部分组成,第一部分是\(C_{t-1}\)和遗忘门输出\(f_t\)的乘积,第二部分是输入门的\(i_t\)和\(a_t\)的乘积,即:

\[
C_{t} = C_{t-1} \odot f_{t} + i_{t} \odot a_{t}
\]

2.5 LSTM之输出门

有了新的隐藏细胞状态\(C_t\),我们就可以来看输出门了,子结构如下:

从图中可以看出,隐藏状态\(h_t\)的更新由两部分组成,第一部分是\(o_t\),它由上一序列的隐藏状态\(h_{t-1}\)和本序列数据\(x_t\),以及激活函数sigmoid得到,第二部分由隐藏状态\(C_t\)和\(tanh\)激活函数组成, 即:

\[
o_{t} = \sigma(W_oh_{t-1} + U_ox_{t} + b_o)
\]

\[
h_{t} = o_{t} \odot tanh(C_{t})
\]

3. 总结

通过本节的剖析,相信大家对于LSTM的模型结构已经有了解了。当然,有些LSTM的结构和上面的LSTM图稍有不同,但是原理是完全一样的。

3. RNN神经网络-LSTM模型结构的更多相关文章

  1. 卷积神经网络(CNN)模型结构

    在前面我们讲述了DNN的模型与前向反向传播算法.而在DNN大类中,卷积神经网络(Convolutional Neural Networks,以下简称CNN)是最为成功的DNN特例之一.CNN广泛的应用 ...

  2. Python中利用LSTM模型进行时间序列预测分析

    时间序列模型 时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征.这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺 ...

  3. LSTM模型与前向反向传播算法

    在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结.由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long ...

  4. 浅谈RNN、LSTM + Kreas实现及应用

    本文主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学 ...

  5. 深度学习之从RNN到LSTM

    1.循环神经网络概述 循环神经网络(RNN)和DNN,CNN不同,它能处理序列问题.常见的序列有:一段段连续的语音,一段段连续的手写文字,一条句子等等.这些序列长短不一,又比较难拆分成一个个独立的样本 ...

  6. 深度学习:浅谈RNN、LSTM+Kreas实现与应用

    主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...

  7. 机器学习- RNN以及LSTM的原理分析

    概述 RNN是递归神经网络,它提供了一种解决深度学习的另一个思路,那就是每一步的输出不仅仅跟当前这一步的输入有关,而且还跟前面和后面的输入输出有关,尤其是在一些NLP的应用中,经常会用到,例如在NLP ...

  8. 循环神经网络LSTM RNN回归:sin曲线预测

    摘要:本篇文章将分享循环神经网络LSTM RNN如何实现回归预测. 本文分享自华为云社区<[Python人工智能] 十四.循环神经网络LSTM RNN回归案例之sin曲线预测 丨[百变AI秀]& ...

  9. Coursera Deep Learning笔记 序列模型(一)循环序列模型[RNN GRU LSTM]

    参考1 参考2 参考3 1. 为什么选择序列模型 序列模型能够应用在许多领域,例如: 语音识别 音乐发生器 情感分类 DNA序列分析 机器翻译 视频动作识别 命名实体识别 这些序列模型都可以称作使用标 ...

随机推荐

  1. [译]javascript中的依赖注入

    前言 在上文介绍过控制反转之后,本来打算写篇文章介绍下控制反转的常见模式-依赖注入.在翻看资料的时候,发现了一篇好文Dependency injection in JavaScript,就不自己折腾了 ...

  2. GIF录制

    韩梦飞沙  韩亚飞  313134555@qq.com  yue31313  han_meng_fei_sha ============= 快手电脑版_快手_gif快手电脑版 GIF动画录制工具|GI ...

  3. curl解压gzip页面gzcompress内容

    $headers = array( //"Content-type:application/json;charset='utf-8'", "Cache-Control:n ...

  4. 阿里P6大牛给予Java初学者的学习路线建议

    Java学习这一部分是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要 ...

  5. spring源码分析系列 (8) FactoryBean工厂类机制

    更多文章点击--spring源码分析系列 1.FactoryBean设计目的以及使用 2.FactoryBean工厂类机制运行机制分析 1.FactoryBean设计目的以及使用 FactoryBea ...

  6. 添加 vip

    两台机器:172.16.91.101 172.16.91.107 在91.101上增加虚拟ip,92网段的 ifconfig eth0:1 172.16.92.2 netmask 255.255.25 ...

  7. ClassLoader加载资源时的搜索路径

    先来个例子: /** * 测试classloader加载路径在哪里<p> * main3 */ public static void main3(String[] args) { Prop ...

  8. perl debug

    1. 进入debug模式 # perl -d ./perl_debugger.pl it prompts, DB<1>   2. 查看从第10行开始的代码. 查看函数get_pattern ...

  9. poj 1184

    经典的宽搜题目,感觉最好的办法应该是双向广搜. 不过用简单的启发式搜索可以飘过. #include <iostream> #include <cstdio> #include ...

  10. iOS 6 新的快捷初始化写法

    转:http://www.2cto.com/kf/201408/328974.html 下列简化写法是IOS6.0以后的新写法 NSNumber //简化前的写法: NSNumber *value1; ...