End-To-End Memory Networks

End-To-End Memory Networks

2019-05-20 14:37:35

Paper：https://papers.nips.cc/paper/5846-end-to-end-memory-networks.pdf

Code：https://github.com/facebook/MemNN

1. Background and Motivation:

现在人工智能研究的两个挑战性的问题是：第一是能够构建模型，使其能够进行多个计算步骤，以服务于回答问题或者完成一个任务；另一个是可以建模时序数据中的长期依赖关系。最近，基于存储和 attention 机制的模型开始复兴，而构建这种存储对解决上述两个问题，提供了可能的方向。在前人的工作中，存储是建立在连续的表达上；从该存储中进行读取和写入的操作，以及一些其他的操作步骤，都通过神经网络的动作来建模。

在本文中，作者提出了一种新颖的 RNN 结构，其能够循环的从一个可能的大型额外记忆单元中多次进行读取，然后输出一个符号。我们的模型可以看做是连续的 Memory Network。我们的模型也可以看做是一种 RNNsearch 的版本，每输出一个符号都带有多个 hops。我们的实验证明，长期记忆的 the multiple hops 对取得较好的效果，具有关键性的作用。训练这些记忆表达，可以以一种 end-to-end manner 来将其接入到我们的模型中。

2. Approach:

我们的模型将离散元素集合 x1, x2, .... xn（存储在 memory 中）和 query q 作为输入，然后输出一个 answer a。每一个 xi，q，a 都包含从字典中得到的符号表达。模型将所有的 x 写入到 memory，直至达到一个固定的 buffer size，然后为 x 和 q 找到一个连续的表达。这个连续的表达然后通过 multiple hops 来进行处理，输出 a。这就允许误差信号可以沿着多次记忆的访问进行传播，在训练过程中传递到输入。

2.1 Single Layer：

Input memory representation:

假设我们给定了一个输入集合 x1, x2, ... , xi 并且存储在记忆单元中。整个 {xi} 的集合可以转换为 memory vector {mi}，通过将每一个 xi 映射到连续的空间，最简单的情况就是，利用 an embedding matrix A。Query q 然后也被映射，得到一个中间状态 u。在 embedding space 中，我们通过采用内积，然后用 softmax 函数，计算 u 和每一个 memory mi 之间的匹配：

通过这种方式定义的 p，是基于输入的概率向量。

Output memory representation :

每一个 xi 都有一个对应的输出向量 ci（通过另一个 embedding matrix C 来进行转换）。从记忆 o 中得到的响应，用概率向量 p 和转换输入 ci 之间的加权求和：

因为从输入到输出的函数是平滑的，我们可以简单的计算其梯度，然后进行反传即可。其他最新提出的一些 memory 和 attention 的方法，也是采用这种方法。

Generating the final prediction :

在单个 layer 的情况下，输出向量 o 的和，以及输入映射 u 都被用一个权重矩阵 W 进行传递，然后用 softmax 得到其预测的 label：

总体的模型如图 1 （a）所示。

2.2 Multiple Layers:

我们现在将模型拓展为可以处理 K hop operations 的情况。这些 memory layers 可以通过如下的方式进行堆叠：

1). 第一层上面的那些 layers 的输入是：来自 layer k 的输出 $o^k$ 以及输入 $u^k$ 的和：

　　　　$u^{k+1} = u^k + o^k$.

2). 每一层都有其各自的 embedding matrices $A^k, C^k$，用于映射其输入 $x_i$。

3). 在网络的顶端，W 的输入也考虑了 the top memory layer 的输入和输出：

$\hat{a} = Softmax(W u^{K+1}) = Softmax(W (o^K + u^K))$。

作者在这个模型中，考虑了如下两种加权的方式：

1. Adjacent：某一层的输出是上一层的输入，即： $A^{k+1} = C^{k}$。我们也给定了如下的约束：a). 答案预测矩阵要和最终输出的映射相同，即：$W^T = C^K$， b). question embedding 要和第一层的 input embedding 保持一致，即：$B = A^1$。

2. Layer-wise (RNN-like): 输入和输出 embedding 在不同layers 之间是相同的，即：$A^1 = A^2 = ... = A^K$ and $C^1 = C^2 = ... = C^K$。我们已经发现，在 hops 之间用一个线性映射 H 来更新 u 是有效的；即，$u^{k+1} = H u^{k} + o^k$。这个映射是沿着剩下的参数学习的。

End-To-End Memory Networks的更多相关文章

LSTM学习—Long Short Term Memory networks
原文链接:https://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks Recurren ...
论文笔记：Learning Dynamic Memory Networks for Object Tracking
Learning Dynamic Memory Networks for Object Tracking ECCV 2018Updated on 2018-08-05 16:36:30 Paper: ...
Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks（知识图谱）
本文作者:杨昆霖,2015级本科生,目前研究方向为知识图谱,推荐系统,来自中国人民大学大数据管理与分析方法研究北京市重点实验室. 引言经常上购物网站时,注意力会被首页上的推荐吸引过去,往往本来只想买 ...
论文阅读：Memory Networks
一.论文所解决的问题实现长期记忆(大量的记忆),而且实现怎样从长期记忆中读取和写入,此外还增加了推理功能为什么长期记忆非常重要:由于传统的RNN连复制任务都不行,LSTM预计也够玄乎. 在QA问题 ...
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks（1）
今天和陈驰,汪鑫讨论了一下,借此记录一下想法. 关于这篇论文,要弄清的地方有: 1.LSTMtree到底是从上往下还是从下往上学的,再确认一下 2.关于每个节点的标注问题 3.label的值到底该怎么 ...
Sequence Models and Long-Short Term Memory Networks
LSTM’s in Pytorch Example: An LSTM for Part-of-Speech Tagging Exercise: Augmenting the LSTM part-of- ...
论文阅读及复现 | Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
两种形式的LSTM变体 Child-Sum Tree-LSTMs N-ary Tree-LSTMs https://paperswithcode.com/paper/improved-semantic ...
Attention and Augmented Recurrent Neural Networks
Attention and Augmented Recurrent Neural Networks CHRIS OLAHGoogle Brain SHAN CARTERGoogle Brain Sep ...
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks-paper
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks 作者信息:Kai Shen ...

随机推荐

Python_列表操作1
1.列表相关操作:声明,添加,删除,修改,获取len colors=['红','橙','黄','绿'] #声明一个列表 def colors_getall(): #获取列表中所有元素 return c ...
Schema学习【一】
XML Schema 是基于 XML 的 DTD 替代者. 什么是 XML Schema? XML Schema 的作用是定义 XML 文档的合法构建模块,类似 DTD. XML Schema: 定义 ...
本地安装部署Jira
https://blog.csdn.net/u013492736/article/details/83315650 1. 首先在官网下自行搭建服务器的版本,有适合于windows的,也有linux版本 ...
介绍一个二次排序的小技巧(best coder27期1001jump jump jump)
先来描述一下问题: 问题描述有n小孩在比赛跳远,看谁跳的最远.每个小孩可以跳3次,这个小孩的成绩就是三次距离里面的最大值.例如,一个小孩跳3次的距离分别时10, 30和20,那么这个小孩的成绩就是3 ...
linux系统编程之信号(五)
今天继续对信号进行学习,开始正入正题: sigaction函数: 安装信号之前我们已经学过一个函数:signal,它最早是在unix上出现的,它是对不可靠信号进行安装的,之后出现了可靠信号和实时信号, ...
linux系统编程之进程(二)
今天继续学习进程相关的东东,上节提到了,当fork()之后,子进程复制了父进程当中的大部分数据,其中对于打开的文件,如果父进程打开了,子进程则不需要打开了,是共享的,所以首先先来研究下共享文件这一块的 ...
unsupervised learning: K-means 算法
k-means算法是目前最流行的,用得最多的一种clustering算法 K-means算法如果我们想要将上图中的绿色的点分为两类,首先随机的选取两个cluster centroids(聚类中心), ...
C#技巧与解析(部分)
DesignMode 以下项目在设计器界面,需判断DesignMode OnPaint(e)/Form_Paint 自定义控件中需要特殊方法进行判断,如下: public partial class ...
Java入门程序HelloWord
Java程序开发三步骤:编写,编译,运行编译器(编译):javac.exe 解释器(运行):java.exe 编译:把我们能看得懂的java代码(xxx.java)翻译成jvm可以运行的java字节 ...
Map的常用实现类及Entry的用法
public static void main(String[] args) { //map 键值对 json格式根据你的键名来获取对应的值 //特点 :无序.以键值对的形式添加元素,键不 ...

End-To-End Memory Networks

End-To-End Memory Networks的更多相关文章

随机推荐

热门专题