《A Structured Self-Attentive Sentence Embedding》（注意力机制）

Background and Motivation:

现有的处理文本的常规流程第一步就是：Word embedding。也有一些 embedding 的方法是考虑了 phrase 和 sentences 的。这些方法大致可以分为两种： universal sentence（general 的句子）和 certain task（特定的任务）；常规的做法：利用 RNN 最后一个隐层的状态，或者 RNN hidden states 的 max or average pooling 或者 convolved n-grams. 也有一些工作考虑到解析和依赖树（parse and dependence trees）；

对于一些工作，人们开始考虑通过引入额外的信息，用 attention 的思路，以辅助 sentence embedding。但是对于某些任务，如：情感分类，并不能直接使用这种方法，因为并没有此类额外的信息：the model is only given one single sentence as input. 此时，最常用的做法就是 max pooling or averaging 所有的 RNN 时间步骤的隐层状态，或者只提取最后一个时刻的状态作为最终的 embedding。

而本文提出一种 self-attention 的机制来替换掉通常使用的 max pooling or averaging step. 因为作者认为：carrying the semantics along all time steps of a recurrent model is relatively hard and not necessary. 不同于前人的方法，本文所提出的 self-attention mechanism 允许提取句子的不同方便的信息，来构成多个向量的表示（allows extracting different aspects of the sentence into multiple vector representation）。在我们的句子映射模型中，是在 LSTM 的顶端执行的。这确保了 attention 模型可以应用于没有额外信息输入的任务当中，并且减少了 lstm 的一些长期记忆负担。另外一个好处是，可视化提取的 embedding 变的非常简单和直观。

Approach Details：

1. Model

所提出的 sentence embedding model 包含两个部分：（1）双向 lstm；（2）the self-attention mechanism；

给定一个句子，我们首先将其进行 Word embedding，得到：S = (w1, w2, ... , wn)，然后讲这些 vector 拼成一个 2-D 的矩阵，维度为：n*d；

然后为了 model 不同单词之间的关系，我们利用双向 lstm 来建模，得到其两个方向的隐层状态，然后，此时我们可以得到维度为：n*2u 的矩阵，记为：H。

为了将变长的句子，编码为固定长度的 embedding。我们想通过选择 n 个 LSTM hidden states 的线性组合，来达到这一目标。计算这样的线性组合，需要利用 self-attention 机制，该机制将 lstm 的所有隐层状态 H 作为输入，并且输出为一个向量权重 a：

其中，Ws1Ws1 是大小为 da∗2uda∗2u 的权重矩阵，ws2ws2 是大小为 dada 的向量参数，这里的 dada 是我们可以自己设定的。由于 H 的大小为：n * 2u, annotation vector a 大小为 n，the softmax（）函数确保了计算的权重加和为1. 然后我们将 lstm 的隐层状态 H 和 attention weight a 进行加权，即可得到 attend 之后的向量 m。

向量的表示通常聚焦于句子的特定成分，像一个特定的相关单词或者词汇的集合。所以，我们需要反映出不同的语义的成分和放慢。但是，一个句子中可能有多个不同的成分，特别是长句子。所以，为了表示句子的总体的语义，我们需要多个 m's 来聚焦于不同的部分。所以，我们需要用到：multiple hops of attention. 即：我们想从句子中提取出 r 个不同的部分，我们将 ws2ws2 拓展为：r∗dar∗da 的 matrix，记为：Ws2Ws2，然后 the resulting annotation vector a 变为了 annotation matrix A. 正式的来说：

此处，softmax（）是沿着输入的第二个维度执行的。我们可以将公式（6）看做是一个 2-layer MLP without bias。

映射向量 m 然后就变成了：r∗2ur∗2u 的 embedding matrix M。我们通过将 annotation A 和 lstm 的隐层状态 H 进行相乘，得到 the r weighted sums，结果矩阵就是句子的映射：

M = AH

总结：第一种注意力其实就是对隐层H加入2层全连接，全连接最后一层维度1，第二种注意力最后一层维度不为1

2. Penalization Term

当 attention 机制总是提供类似的 summation weights for all the r hops，映射矩阵 M 可能会受到冗余问题的影响。然后，我们需要一个惩罚项，来估计 summation weight vectors 变的 diverse。

最好的衡量的两个 summation weight vectors 之间的度量方式就是：KL Divergence（Kullback Leibler Divergence），然而，作者发现在这个问题中，并不适合。作者猜想这是由于：we are maximizing a set of KL divergence, we are optimizing the annotation matrix A to have a lot of sufficiently small or even zero values at different softmax output units, and these vast amount of zeros is making the training unstable. 另一个 KL 不具有的特征，但是我们缺需要的是：we want to each individual row to focus on a single aspect of semantics, so we want the probabilty mass in the annotation softmax output to be more focused.

我们将 A 乘以其转置，然后减去单位矩阵，作为其冗余度的度量：

Experiments：

参考：

http://www.cnblogs.com/wangxiaocvpr/p/9501442.html

《A Structured Self-Attentive Sentence Embedding》（注意力机制）的更多相关文章

论文笔记：A Structured Self-Attentive Sentence Embedding
A Structured Self-Attentive Sentence Embedding ICLR 2017 2018-08-19 14:07:29 Paper:https://arxiv.org ...
自然语言处理中的自注意力机制（Self-attention Mechanism）
自然语言处理中的自注意力机制(Self-attention Mechanism) 近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力 ...
自注意力机制（Self-attention Mechanism）——自然语言处理（NLP）
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中.随着注意力机制的深入研究,各式各样的attention被研究者们提出.在2017年6月google机 ...
Pytorch系列教程-使用Seq2Seq网络和注意力机制进行机器翻译
前言本系列教程为pytorch官网文档翻译.本文对应官网地址:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutor ...
AAAI2018中的自注意力机制(Self-attention Mechanism)
近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中.随着注意力机制的深入研究,各式各样的attention被研究者们提出,如单个.多个.交互式等等.去年 ...
TensorFlow从1到2（十）带注意力机制的神经网络机器翻译
基本概念机器翻译和语音识别是最早开展的两项人工智能研究.今天也取得了最显著的商业成果. 早先的机器翻译实际脱胎于电子词典,能力更擅长于词或者短语的翻译.那时候的翻译通常会将一句话打断为一系列的片段, ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
将句子表示为向量（下）：基于监督学习的句子表示学习（sentence embedding）
1. 引言上一篇介绍了如何用无监督方法来训练sentence embedding,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB.自 ...

随机推荐

[troubleshoot][daily][redhat] 设备反复重启故障排查
一台服务器设备,反复重启,每天重启数次. 一: 原因分析及初步排异. 1. 硬件,内存主板,一一更换,甚至除了硬盘将整台机器都换掉了,依然重启. 2. 排除电源问题,换了电源线,换了插座,还是重启 ...
安装多个java后，java版本不对
参考资料: https://www.cnblogs.com/Kidezyq/p/5781131.html 主要原因是javac -version是由JAVA_HOME指定的路径中的java版本来决定的 ...
优云软件又双叒通过CMMI ML3评估，研发和质量管理水平创新高
2017年第三季度,SEI授权的主任评估师对优云软件研发中心进行了CMMI软件能力成熟度模型评估,优云软件顺利通过复评. 这是继2011年12月优云软件首次通过CMMI ML3级的评估认证以来,第二次 ...
洛谷P4823 拯救小矮人 [TJOI2013] 贪心+dp
正解:贪心+dp 解题报告: 传送门! 我以前好像碰到过这题的说,,,有可能是做过类似的题qwq? 首先考虑这种显然是dp?就f[i][j]:决策到了地i个人,跑了j个的最大高度,不断更新j的上限就得 ...
Webpack 入门（转）
原文:https://www.runoob.com/w3cnote/webpack-tutorial.html Webpack 是一个前端资源加载/打包工具.它将根据模块的依赖关系进行静态分析,然后将 ...
终于解决“Git Windows客户端保存用户名与密码”的问题（转载）
add by zhj:不建议用这种方法,建议用SSH,参见 TortoiseGit密钥的配置 http://www.cnblogs.com/ajianbeyourself/p/3817364.html ...
IE报错：[vuex] vuex requires a Promise polyfill in this browser.
使用的是vue2.0版本 IE报错提醒: 导致原因:使用了 ES6 中用来传递异步消息的的Promise,而IE的浏览器不支持解决办法: 1.安装babel-polyfill模块,babel-plo ...
27-4-DMA2D图形加速器
在实际使用 LTDC 控制器控制液晶屏时,使 LTDC 正常工作后,往配置好的显存地址写入要显示的像素数据, LTDC 就会把这些数据从显存搬运到液晶面板进行显示,而显示数据的容量非常大,所以我们希望 ...
.NET Core 指南官方
https://docs.microsoft.com/zh-cn/dotnet/core/index
yarn client中的一个BUG的修复
org.apache.spark.deploy.yarn.Client.scala中的monitorApplication方法: /** * Report the state of an applic ...

《A Structured Self-Attentive Sentence Embedding》（注意力机制）

《A Structured Self-Attentive Sentence Embedding》（注意力机制）的更多相关文章

随机推荐

热门专题