【神经网络篇】--RNN递归神经网络初始与详解

一、前述

传统的神经网络每个输入节点之间没有联系，

RNN （对中间信息保留）：

由图可知，比如第二个节点的输入不仅依赖于本身的输入U1，而且依赖上一个节点的输入W0,U0，同样第三个节点依赖于前两个节点的输入，

假设每一个节点分别代表着“我出生在中国，我说——”的一个预测，则“说”后面则是依赖于前面的说的每个单词的所有组合。

xt表示第t,t=1,2,3...步(step)的输入

st为隐藏层的第t步的状态，它是网络的记忆单元。

st=f(Uxt+Wst−1)，其中f一般是非线性的激活函数。

ot是第t步的输出，如下个单词的向量表示softmax(Vst)（多分类）。
二、具体

1、递归神经网络的反向传播

损失函数有多个，以E3为例

E3由t0－t3时刻x，W共同确定 Δ W的确定要考虑E3在各个时刻对w导数。

t3:

t2:

t1:

不仅更新当前节点的输入梯度，还更新当前节点的所有记忆单元，一直传播下去。

2、RNN局限性问题

I am Chines, I Love China
递归神经网络参数太多，信息量冗余（因为最后的预测可能只依赖它最近的词，但我们输入的时候是所有的词，所以信息量冗余）、梯度消失或者爆炸。

3、LSTM（长短记忆网络）

为了解决RNN的一些缺点，RNN与LSTM对比

C：控制参数
决定什么样的信息会被保留什么样的会被遗忘

具体操作：

门是一种让信息选择式通过的方法sigmoid 神经网络层和一乘法操作。

Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 就指“允许任意量通过”！

Sigmoid函数

具体过程：

丢弃的信息：

先把当前节点的输入和之前记忆的输入传递进来，然后通过sigmod函数组合起来后得到的函数值（0,1）之间，然后再跟Ct-1组合，决定丢弃什么信息。Ct是永远更新维护的值。

保留的信息：

最后总的信息：

分两部分，遗忘的信息Cti-1和保留Ct的信息。先走遗忘的信息，再走保留的信息。Ct从开始到最后一直更新。

输出：

LSTM整体架构：

与RNN对比会有一部分信息保留，一部分信息丢弃。LSTM比RNN更实用。

【神经网络篇】--RNN递归神经网络初始与详解的更多相关文章

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？
https://www.zhihu.com/question/34681168 CNN(卷积神经网络).RNN(循环神经网络).DNN(深度神经网络)的内部网络结构有什么区别?修改 CNN(卷积神经网 ...
CNN(卷积神经网络)、RNN(循环神经网络)、DNN，LSTM
http://cs231n.github.io/neural-networks-1 https://arxiv.org/pdf/1603.07285.pdf https://adeshpande3.g ...
（数据科学学习手札39）RNN与LSTM基础内容详解
一.简介循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列.文本语句.语音等)的神经网络,尤其是可以处理可变长度的序列:在与传统的时间序列 ...
Kotlin——初级篇（四）：控制语句详解
在前面的章节中讲解了Kotlin语言中的数据类型.变量与常量的定义.不了解请参见前面的内容: Kotlin--初级篇(三):数据类型详解. Kotlin--初级篇(二)常量.变量.注释. 下面详细为 ...
Mysql高手系列 - 第20篇：异常捕获及处理详解（实战经验）
Mysql系列的目标是:通过这个系列从入门到全面掌握一个高级开发所需要的全部技能. 这是Mysql系列第20篇. 环境:mysql5.7.25,cmd命令中进行演示. 代码中被[]包含的表示可选,|符 ...
Tensorflow系列专题（四）：神经网络篇之前馈神经网络综述
目录: 神经网络前言神经网络感知机模型多层神经网络激活函数 Logistic函数 Tanh函数 ReLu函数损失函数和输出单元损失函数的选择均方误差损失函数交叉熵损失函数输出单元的选 ...
RNN 与 LSTM 的原理详解
原文地址:https://blog.csdn.net/happyrocking/article/details/83657993 RNN(Recurrent Neural Network)是一类用于处 ...
ios开发——实用技术OC－Swift篇&本地通知与远程通知详解
本地通知与远程通知详解一:本地通知 Local Notification的作用 Local Notification(本地通知) :是根据本机状态做出的通知行为,因此,凡是仅需依赖本机状态即可判 ...
Maven系列第6篇：生命周期和插件详解，此篇看过之后在maven的理解上可以超越同级别90%的人！
maven系列目标:从入门开始开始掌握一个高级开发所需要的maven技能. 这是maven系列第6篇. 整个maven系列的内容前后是有依赖的,如果之前没有接触过maven,建议从第一篇看起,本文尾部 ...

随机推荐

陌陌架构分享 – Apple Push Notification Service
http://blog.latermoon.com/?p=878 先描述下基本概念,标准的iPhone应用是没有后台运行的,要实现实时推送消息到手机,需要借助Apple提供的APNS服务. iPhon ...
jquery开关按钮效果
.circular1{ width: 50px; height: 30px; border-radius: 16px; background-color: #ccc; transition: .3s; ...
Python Assert 为何不尽如人意
Python中的断言用起来非常简单,你可以在assert后面跟上任意判断条件,如果断言失败则会抛出异常. >>> assert 1 + 1 == 2 >>> ass ...
selenium相关技术研究(从1.0-3.0)
注: 以下内容引自http://www.cnblogs.com/hhudaqiang/p/6550135.html Selenium相关技术研究(从1.0-3.0) 好吧,最近看wxpython有点多 ...
TestNG失败自动截图
转自:https://www.cnblogs.com/tobecrazy/p/4814813.html
TestNG exception
以下内容引自: https://howtodoinjava.com/testng/testng-expected-exception-and-expected-message-tutorial/ Ho ...
【LOJ #6094. 「Codeforces Round #418」归乡迷途】
题目大意: 传送门. lca说的很明白就不重复了. 题解: 先膜一发lca. 大体读完题以后我们可以知道对于第i个节点最短路一定是连向1到i-1中的某个点. 然后我们考虑将到1距离(这里及以下均是最短 ...
【dfs判负环】BZOJ1489: [HNOI2009]最小圈
Description 找出一个平均边权最小的圈. Solution 经典问题,二分答案判断有无负环. 但数据范围大,普通spfa会超时,于是用dfs判负环(快多了). 思路是dis设为0,枚举每个点 ...
BZOJ_1485_[HNOI2009]有趣的数列_卡特兰数
BZOJ_1485_[HNOI2009]有趣的数列_卡特兰数 Description 我们称一个长度为2n的数列是有趣的,当且仅当该数列满足以下三个条件: (1)它是从1到2n共2n个整数的一个排列{ ...
前端基础-CSS的各种选择器的特点以及CSS的三大特性
一. 基本选择器二. 后代选择器.子元素选择器三. 兄弟选择器四. 交集选择器与并集选择器五. 序列选择器六. 属性选择器七. 伪类选择器八. 伪元素选择器九. CSS三大特性一. ...

【神经网络篇】--RNN递归神经网络初始与详解

【神经网络篇】--RNN递归神经网络初始与详解的更多相关文章

随机推荐

热门专题