聊聊RNN&LSTM

RNN

用于解决输入数据为，序列到序列(时间序列)数据，不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度，即输入内容的上下文关联性强。

整体结构

x、o为向量，分别表示输入层、输出层的值；U、V为权重矩阵，U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W 是上一次的值 S(t-1) 作为这一次的输入的权重矩阵，S(t)是当前的隐藏层矩阵。

RNN层结构与计算公式

RNN层计算公式

RNN层正向传播

MatMul表示矩阵乘积。

这里的h也就是s，都是RNN层函数的输出结果。RNN层的处理函数是tanh，输出结果是h，因此RNN层具有"状态"，这也是其具有记忆性的原因。

RNN隐藏层的输出结果，也被称为隐藏状态或是隐藏状态向量，一般用h或s表示。

RNN层反向传播

蓝线表示反向传播的线路图

带来的问题

由于激活函数Tanh其反向传播时，会导致梯度为0或趋于很大的数值，导致梯度消失或爆炸。

LSTM

通过引入输入门、遗忘门和输出门，解决RNN模型下带来的梯度消失的问题。

整体结构

输出门的结果用o来表示，其计算公式如下：

遗忘门的结果用f表示，其计算公式如下：

输入门的结果用i表示，其计算公式如下：

遗忘门从上一时刻的记忆单元中删除了应该忘记的东西，但需要添加一些应当记住的新信息，新的记忆单元g，其计算公式如下：

要注意的是，不同的门输出所代表的意义不一样，因为其最后流向的地方不一样，分别是转换为了新的记忆单元c，新的隐藏状态h。

最终汇总后的整体结构如下

反向传播

蓝线代表反向传播路径，记忆单元的反向传播仅流过“+”和“×”节点。“+”节点将上游传来的梯度原样流出，所以梯度没有变化（退化）。

优化

LSTM的优化可以从三个方面

LSTM层的多层化
1. 在使用RNN创建高精度模型时，加深LSTM层（叠加多个LSTM层）的方法往往很有效。之前我们只用了一个LSTM层，通过叠加多个层，可以提高语言模型的精度。
基于Dropout抑制过拟合
1. 通过叠加LSTM层，可以期待能够学习到时序数据的复杂依赖关系。换句话说，通过加深层，可以创建表现力更强的模型，但是这样的模型往往会发生过拟合（overfitting）。
2. Dropout随机选择一部分神经元，然后忽略它们，停止向前传递信号。这种“随机忽视”是一种制约，可以提高神经网络的泛化能力。
权重共享
1. 共享权重可以减少需要学习的参数数量，从而促进学习。另外，参数数量减少，还能收获抑制过拟合的好处。
2. 绑定（共享）Embedding层和Affine层的权重的技巧在于权重共享。通过在这两个层之间共享权重，可以大大减少学习的参数数量。

聊聊RNN&LSTM的更多相关文章

RNN/LSTM/GRU/seq2seq公式推导
概括:RNN 适用于处理序列数据用于预测,但却受到短时记忆的制约.LSTM 和 GRU 采用门结构来克服短时记忆的影响.门结构可以调节流经序列链的信息流.LSTM 和 GRU 被广泛地应用到语音识别. ...
时间序列(六): 炙手可热的RNN: LSTM
目录炙手可热的LSTM 引言 RNN的问题恐怖的指数函数梯度消失* 解决方案 LSTM 设计初衷 LSTM原理门限控制* LSTM 的 BPTT 参考文献: 炙手可热的LSTM 引言上一讲说 ...
[NL系列] RNN & LSTM 网络结构及应用
http://www.jianshu.com/p/f3bde26febed/ 这篇是 The Unreasonable Effectiveness of Recurrent Neural Networ ...
RNN LSTM 介绍
[RNN以及LSTM的介绍和公式梳理]http://blog.csdn.net/Dark_Scope/article/details/47056361 [知乎对比 rnn lstm 简单代码] ...
rnn,lstm and JuergenSchmidhuber
JuergenSchmidhuber 是瑞士的一位牛人,主要贡献是rnn, lstm. google的deep mind新作,Human-level control through deep rein ...
RNN,LSTM,GRU基本原理的个人理解
记录一下对RNN,LSTM,GRU基本原理(正向过程以及简单的反向过程)的个人理解 RNN Recurrent Neural Networks,循环神经网络 (注意区别于recursive neura ...
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识
用tensorflow搭建RNN(LSTM)进行MNIST 手写数字辨识循环神经网络RNN相比传统的神经网络在处理序列化数据时更有优势,因为RNN能够将加入上(下)文信息进行考虑.一个简单的RNN如 ...
深度学习中的序列模型演变及学习笔记（含RNN/LSTM/GRU/Seq2Seq/Attention机制）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...
tensorflow学习之（十一）RNN+LSTM神经网络的构造
#RNN 循环神经网络 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data tf.se ...
Word Embedding/RNN/LSTM
Word Embedding Word Embedding是一种词的向量表示,比如,对于这样的"A B A C B F G"的一个序列,也许我们最后能得到:A对应的向量为[0.1 ...

随机推荐

【Springboot】SpringBoot-Admin 服务监控+告警通知
SpringBoot-Admin 服务监控简单介绍 Spring Boot Actuator 是 Spring Boot 自带的一个功能模块, 提供了一组已经开箱即用的生产环境下常用的特性和服务,比 ...
[GIT]解决：failed to push some refs to ...（过程重现）
本问题有很多种情况,解决方法也很多,本文只针对笔者本人的自身诉求和情况,选择了一种适合我的解决方法.仅供参考. 1 问题描述 johnnyzen@XXDSSS MINGW64 /e/source_co ...
【转载】DSP 缓存机制及影响测试
本文主要以DSP讲解cache原理,但原理与CPU是相通的,故转载,原文地址:https://blog.csdn.net/qq_39376747/article/details/112794096 目 ...
痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（10.A）- FlexSPI NAND启动时间(RT1170)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是恩智浦i.MX RT1170 FlexSPI NAND启动时间. 本篇是 i.MXRT1170 启动时间评测第四弹,前三篇分别给大家评测 ...
【python笔记】使用zip函数迭代多个可迭代对象
入门使用 # 示例代码 warframe = ["saryn", "wisp", "volt"] counts = [len(n) for ...
LabVIEW图形化TensoRT工具包的安装下载分享
前言 Hello,大家好,我是virobotics(仪酷智能)今天我们一起来看一下如何安装[LabVIEWTensoRT工具包]. 一.LabVIEW图形化TensoRT工具包简介工具包特点: 图形 ...
IDA函数特征识别自动签名
IDA函数特征识别自动签名 Vc6编译的有些无法识别一些库里面的函数测试代码 #include <stdio.h> int main() { printf("123456\n& ...
Sealos 国内集群正式上线，可一键运行 LLama2 中文版大模型！
2023 年 7 月 19 日,MetaAI 宣布开源旗下的 LLama2 大模型,Meta 首席科学家.图灵奖得主 Yann LeCun 在推特上表示 Meta 此举可能将改变大模型行业的竞争格局. ...
Hugging News #0821: 新的里程碑：一百万个代码仓库！
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
《Web安全基础》02. 信息收集
@ 目录 1:CDN 绕过 1.1:判断是否有 CDN 服务 1.2:常见绕过方法 1.3:相关资源 2:网站架构 3:WAF 4:APP 及其他资产 5:资产监控本系列侧重方法论,各工具只是实现目 ...

聊聊RNN&LSTM

RNN

整体结构

RNN层结构与计算公式

RNN层计算公式

RNN层正向传播

RNN层反向传播

带来的问题

LSTM

整体结构

反向传播

优化

聊聊RNN&LSTM的更多相关文章

随机推荐

热门专题