注意力机制

在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。

与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。在seq2seq模型中，解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。

注意力机制框架

Attention 是一种通用的带权池化方法，输入由两部分构成：询问（query）和键值对（key-value pairs）。

ki∈Rdk,vi∈Rdvk_i \in R^ {d_k},v_i \in R ^{d_v}ki∈Rdk,vi∈Rdv

Query q∈Rdqq \in R ^{d_q}q∈Rdq

attention layer得到输出与value的维度一致

o∈Rdvo \in R ^{d_v}o∈Rdv

对于一个query来说，attention layer 会与每一个key计算注意力分数并进行权重的归一化，输出的向量ooo则是value的加权求和，而每个key计算的权重与value一一对应。

为了计算输出，我们首先假设有一个函数α\alphaα 用于计算query和key的相似性，然后可以计算所有的 attention scores a1,…,ana_1, \ldots, a_na1,…,an by

ai=α(q,ki).
a_i = \alpha(\mathbf q, \mathbf k_i).
ai=α(q,ki).

我们使用 softmax函数获得注意力权重：

b1,…,bn=softmax(a1,…,an).
b_1, \ldots, b_n = \textrm{softmax}(a_1, \ldots, a_n).
b1,…,bn=softmax(a1,…,an).

最终的输出就是value的加权求和：

o=∑i=1nbivi.
\mathbf o = \sum_{i=1}^n b_i \mathbf v_i.
o=i=1∑nbivi.

不同的attetion layer的区别在于score函数的选择，在本节的其余部分，我们将讨论两个常用的注意层 Dot-product Attention 和 Multilayer Perceptron Attention；随后我们将实现一个引入attention的seq2seq模型并在英法翻译语料上进行训练与测试。

import math

import torch

import torch.nn as nn

import os

def file_name_walk(file_dir):

    for root, dirs, files in os.walk(file_dir):

#         print("root", root)  # 当前目录路径

         print("dirs", dirs)  # 当前路径下所有子目录

         print("files", files)  # 当前路径下所有非目录子文件

file_name_walk("/home/kesci/input/fraeng6506")

dirs []

files ['_about.txt', 'fra.txt']

Softmax屏蔽

在深入研究实现之前，我们首先介绍softmax操作符的一个屏蔽操作。

def SequenceMask(X, X_len,value=-1e6):

    maxlen = X.size(1)

    #print(X.size(),torch.arange((maxlen),dtype=torch.float)[None, :],'\n',X_len[:, None] )

    mask = torch.arange((maxlen),dtype=torch.float)[None, :] >= X_len[:, None]

    #print(mask)

    X[mask]=value

    return X

def masked_softmax(X, valid_length):

    # X: 3-D tensor, valid_length: 1-D or 2-D tensor

    softmax = nn.Softmax(dim=-1)

    if valid_length is None:

        return softmax(X)

    else:

        shape = X.shape

        if valid_length.dim() == 1:

            try:

                valid_length = torch.FloatTensor(valid_length.numpy().repeat(shape[1], axis=0))#[2,2,3,3]

            except:

                valid_length = torch.FloatTensor(valid_length.cpu().numpy().repeat(shape[1], axis=0))#[2,2,3,3]

        else:

            valid_length = valid_length.reshape((-1,))

        # fill masked elements with a large negative, whose exp is 0

        X = SequenceMask(X.reshape((-1, shape[-1])), valid_length)

        return softmax(X).reshape(shape)

masked_softmax(torch.rand((2,2,4),dtype=torch.float), torch.FloatTensor([2,3]))

tensor([[[0.5423, 0.4577, 0.0000, 0.0000],

         [0.5290, 0.4710, 0.0000, 0.0000]],

        [[0.2969, 0.2966, 0.4065, 0.0000],

         [0.3607, 0.2203, 0.4190, 0.0000]]])

超出2维矩阵的乘法

XXX 和 YYY 是维度分别为(b,n,m)(b,n,m)(b,n,m) 和(b,m,k)(b, m, k)(b,m,k)的张量，进行 bbb 次二维矩阵乘法后得到 ZZZ, 维度为 (b,n,k)(b, n, k)(b,n,k)。

Z[i,:,:]=dot(X[i,:,:],Y[i,:,:])for i=1,…,n .
Z[i,:,:] = dot(X[i,:,:], Y[i,:,:])\qquad for\ i= 1,…,n\ .
Z[i,:,:]=dot(X[i,:,:],Y[i,:,:])for i=1,…,n .

torch.bmm(torch.ones((2,1,3), dtype = torch.float), torch.ones((2,3,2), dtype = torch.float))

tensor([[[3., 3.]],

        [[3., 3.]]])

点积注意力

The dot product 假设query和keys有相同的维度, 即 $\forall i, q,k_

L11注意力机制和Seq2seq模型的更多相关文章

注意力机制和Seq2seq模型
注意力机制在"编码器-解码器(seq2seq)"⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息.当编码器为循环神经⽹络时,背景变量 ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
深度学习之注意力机制（Attention Mechanism）和Seq2Seq
这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...
DeepLearning.ai学习笔记（五）序列模型 -- week2 序列模型和注意力机制
一.基础模型假设要翻译下面这句话: "简将要在9月访问中国" 正确的翻译结果应该是: "Jane is visiting China in September" ...
TensorFlow从1到2（十）带注意力机制的神经网络机器翻译
基本概念机器翻译和语音识别是最早开展的两项人工智能研究.今天也取得了最显著的商业成果. 早先的机器翻译实际脱胎于电子词典,能力更擅长于词或者短语的翻译.那时候的翻译通常会将一句话打断为一系列的片段, ...
seq2seq模型以及其tensorflow的简化代码实现
本文内容: 什么是seq2seq模型 Encoder-Decoder结构常用的四种结构带attention的seq2seq 模型的输出 seq2seq简单序列生成实现代码一.什么是seq2seq ...
CAP：多重注意力机制，有趣的细粒度分类方案 | AAAI 2021
论文提出细粒度分类解决方案CAP,通过上下文感知的注意力机制来帮助模型发现细微的特征变化.除了像素级别的注意力机制,还有区域级别的注意力机制以及局部特征编码方法,与以往的视觉方案很不同,值得一看来源 ...
Seq2Seq模型与注意力机制
Seq2Seq模型基本原理核心思想:将一个作为输入的序列映射为一个作为输出的序列编码输入解码输出解码第一步,解码器进入编码器的最终状态,生成第一个输出以后解码器读入上一步的输出,生成当前步 ...
深度学习教程 | Seq2Seq序列模型和注意力机制
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...

随机推荐

表格的删除与添加以及id的唯一性
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta http ...
题解 P1748 【H数】
我来讲讲 $dp$ 的做法前言昨天 $PHY$ 大佬问我,这题怎么做?考虑到他没学过 $set$ . $priority_queue$ 和 $queue$ .之后,我就想到了可 ...
vue基础指令学习
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
springboot整合dubbo+zookeeper最新详细
引入最近和小伙伴做一个比赛,处于开发阶段,因为涉及的服务比较多,且服务需要分开部署在不同的服务器上,讨论之后,打算采用分布式来做,之前学习springboot的时候,部分章节涉及到了springbo ...
2.Django与Vue的结合
Django与Vue的结合在django项目中创建vue项目首先,进去django项目的项目目录中,执行: vue-init webpack firstvue ## firstvue为前端项目的名 ...
CNN更新换代！性能提升算力减半，还即插即用
传统的卷积运算,要成为过去时了. Facebook和新加坡国立大学联手提出了新一代替代品:OctConv(Octave Convolution),效果惊艳,用起来还非常方便. OctConv就如同卷积 ...
AJAX完全解读
本文讲AJAX相关的知识全部讲解了一遍.要想入门,选择这篇文章完全够用本文的知识图谱: AJAX的用处: 在没有AJAX之前,每次从服务端获取数据都要刷新页面(也就是同步请求),这十分的麻烦.比 ...
js之for与forEach循环的区别
回武汉打卡第四天,武汉加油,逆战必胜!今天咱们探讨一下for循环和forEach()循环的区别. 首先,for循环在最开始执行循环的时候,会建立一个循环变量i,之后每次循环都是操作这个变量,也就是说它 ...
E 比赛评分
时间限制 : - MS 空间限制 : - KB 评测说明 : 1s,128m 问题描述 Lj最近参加一个选秀比赛,有N个评委参加了这次评分,N是奇数.评委编号为1到N.每位评委给Lj的分数是 ...
lly的数列询问(最小生成树 + 思维)
lly的数列询问 Description 这个问题很简单,lly lly lly给你一些提示,让你试着确定长度为n n n的数列A [1] A [2] ... A [n]的值,但是他想尽一切办法为大家 ...

L11注意力机制和Seq2seq模型

注意力机制