A RECURRENT NEURAL NETWORK WITHOUT CHAOS

本篇文章的介绍了一个非常简单的门限RNN(gated recurrent neural network),

这里有两扇门horizontal/forget gate和vertical/input gate，即

其中（logistic sigmoid function）

下面假设输入数据x_t满足如下性质，

若隐层节点初始化为0，即，则网络对脉冲x_t的响应为，

其中衰减到0， forget gate控制了衰减速度，所以当隐层节点h_t(i)遇到比较强的信号，h_t(i)被激活，接着衰减到0，直到下一次再次被激活。

zero input比较

本文的模型，只有一个吸引子， zero state, 但其它的模型，i.e., vanilla RNN, the LSTM and the GRU 具有混沌动力学行为。

接着文章想说明，这个没有混沌的RNN在word level language modeling task也能达到很好的效果，间接的说明混沌性质并不能解释这些模型在tasks上的成功。

CHAOS IN RECURRENT NEURAL NETWORKS

考虑下面的离散动力系统，向量u属于R^d

形成的轨迹，会进入该系统的吸引子（不变集），通常是分形的。

所有的RNN可以写成下面的形式

假设没有输入，则RNN可以诱导出相应的动力系统

从而刻画了产生复杂轨迹的能力。

如何才能出现上面的动力系统的行为呢？实际上是可以存在的，由于参数W_j是通过学习得到的，当遇到一个不怎么重要的数据点x_t0，与隐层节点具有很弱的耦合性，也就是说数据的影响不大， i.e., W_jx_t0≈ 0，，就会在接下来的一段时间出现上述动力系统的行为，直到遇到一个非常重要的信号。

CHAOTIC BEHAVIOR OF LSTM AND GRU IN THE ABSENCE OF INPUT DATA

考虑下面LSTM诱导的动力系统，

其中的参数具体为，

接着初始化隐层节点，

图1为具体的动力系统的展示，图中的吸引子实质上是4维动力系统在2维上的投影。

混沌动力系统具有初值敏感性，给定一个初始点，作者在[1e-7, 1e7]范围内进行扰动，跑200steps, 总共100,000次扰动。结果就是，第200步的点，几乎充满了整个吸引子。

上面都是构造的例子，下面是作者在Penn Treebank corpus without dropout 训练好的LSTM，结果也出现混沌现象。当有初入的时候，就不再是一个自治的动力系统了，完全收到输入信号控制。

CHAOS-FREE BEHAVIOR OF THE CFN

实验结果：高层的隐层节点的信号衰减慢

A RECURRENT NEURAL NETWORK WITHOUT CHAOS的更多相关文章

Recurrent Neural Network系列1--RNN（循环神经网络）概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network(循环神经网络)
Reference: Alex Graves的[Supervised Sequence Labelling with RecurrentNeural Networks] Alex是RNN最著名变种 ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
Recurrent Neural Network系列4--利用Python，Theano实现GRU或LSTM
yi作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORK ...
循环神经网络（Recurrent Neural Network，RNN）
为什么使用序列模型(sequence model)?标准的全连接神经网络(fully connected neural network)处理序列会有两个问题:1)全连接神经网络输入层和输出层长度固定, ...
Recurrent Neural Network[Content]
下面的RNN,LSTM,GRU模型图来自这里简单的综述 1. RNN 图1.1 标准RNN模型的结构 2. BiRNN 3. LSTM 图3.1 LSTM模型的结构 4. Clockwork RNN ...
Recurrent Neural Network[survey]
0.引言我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech ...
【NLP】Recurrent Neural Network and Language Models
0. Overview What is language models? A time series prediction problem. It assigns a probility to a s ...

随机推荐

SOA简介
1.你可以把SOA理解为一种概念,总的来说就是面向服务的设计. 这个概念简单来理解就是把之前所谓的模块划分做成服务. 比如之前的日志模块,需要引用你的dll,调用你的写日志方法来写日志.这样当有多个系 ...
boost::multi_index 提供一种千人在线即时排行榜的设计思路
原文地址: http://www.limerence2017.com/2019/06/23/cpp01/ 做游戏或金融后台开发,经常会遇到设计开发排行榜的需求.比如玩家的充值排行,战力排行等等.而这种 ...
flannel下k8s pod及容器无法跨主机互通问题
参照文档 https://blog.csdn.net/a610786189/article/details/80340556 https://blog.csdn.net/weixin_43092 ...
JavaScript DOM 编程艺术(第二版) 初读学习笔记
这本书留给我的印象就是结构.表现和行为层的分离,以及书后面部分一直在强调的最佳实践原则:平稳退化,逐步增强,向后兼容以及性能考虑. 要注意这不是一本JavaScript入门书籍~ 2.1 准备工作用 ...
Bzoj2873 光之大陆
https://blog.csdn.net/qq_39791208/article/details/79079117 有空来研究
【Linux 网络编程】REUSADDR
(1)服务器端尽可能使用REUSEADDR.(2)在绑定之前尽可能调用setsockopt来设置REUSEADDR套接字选项.(3)使用REUSEADDR选项可以使得不必等待TIME_WAIT状态消失 ...
ADG环境搭建
一:实验环境介绍PC机系统: CentOS 6.5(64位)数据库版本: Oracle 11gR2 11.2.0.4 (64位)IP地址规划:主数据库10.110.9.41 SID:orapridb_ ...
第二大矩阵面积--（stack）牛客多校第二场-- Second Large Rectangle
题意: 给你一幅图,问你第二大矩形面积是多少. 思路: 直接一行行跑stack求最大矩阵面积的经典算法,不断更新第二大矩形面积,注意第二大矩形可能在第一大矩形里面. #define IOS ios_b ...
走环概率问题（至今有点迷）--牛客第二场（ Eddy Walker）
思路: 概率结论题,好像属于线性递推,现在也不太懂(lll￢ω￢) #define IOS ios_base::sync_with_stdio(0); cin.tie(0); #include < ...
5表联查yii框架权限控制
一:控制器部分 <?php namespace app\controllers; use yii\web\Controller; class PreController extends Cont ...

A RECURRENT NEURAL NETWORK WITHOUT CHAOS

A RECURRENT NEURAL NETWORK WITHOUT CHAOS的更多相关文章

随机推荐

热门专题