(零)注意力模型(Attention Model)

1)本质:【选择重要的部分】,注意力权重的大小体现选择概率值,以非均匀的方式重点关注感兴趣的部分。

2)注意力机制已成为人工智能的一个重要概念,其在计算机视觉、自然语言处理等众多领域得到了广泛的研究和应用。

3)注意力机制模仿了生物观察行为的内部过程。例如,视觉处理系统倾向于有选择地关注图像某些部分,而忽略其他无关的信息,以一种有助于感知的方式(our visual processing system tends to focus selectively on some parts of the image, while ignoring other irrelevant information in a manner that can assist in perception.)如下图所示。

输入的某些部分比其余部分更重要,这种性质在大多数的任务中是通用和重要的,例如,在机器翻译和摘要任务(machine translation and summarization)中,只有输入序列中的特定单词可能与预测下一个单词有关。同样的,在视觉字幕(image captioning)中,输入图像中某些区域可能对于生成字幕中的下一个单词更重要。

4)注意力机制是上述直觉的具体实现:整合相关部分,使模型动态地仅关注输入的重要部分,从而更有效地实现任务(allowing the model to dynamically pay attention to only certain parts of the input )。

5)了解了注意力的起因和作用后,下面分别介绍:(一)通用注意力模型,(二)不同类型的注意力模型分类,(三)不同架构的注意力模型。

(一)通用注意力模型(Generalized Attention Model)

  通用的注意力模型包括两个输入:查询Query ($q$) 和内容Keys(表示为: $\bf{k}$$=k_1,$ $k_2,$ $\ldots,$ $k_n$),而注意力模型可以看做:相对于查询 $q$,将 $q$与一系列内容Keys 的相关性 $\bf{s}=\{s_i\}_{i=1}^{n}$(也称为对齐),映射为注意力分布 $\bf{\alpha}$$=\{ \alpha_i\}_{i=1}^{n}$ 的过程。注意力分布$\alpha_i$强调的是:相对于查询$q$,每个内容$k_i$与其的相关程度。

  因此,关于两个输入 $q$ 和 $\bf{k}$,通用注意力的计算过程涉及到两个计算步骤:1)确定Query和Keys的相关性,即$s_i = s(q, k_i)$,其中$s(\cdot)$为对齐函数(Alignment function);2)将一系列相关程度映射为注意力分布$\bf{\alpha}=p(\bf{s})$,其中$p(\cdot)$为分布函数(Distribution function)。因此,注意力模型可以表示为:

s_1, s_2, \ldots,s_i

$k_1,$ $ k_2,$ $ \ldots,$ $ k_n$)

$s_i = s(q, k_i)$,

($\bf{\alpha}=p(\bf{s})$)

注意力机制最新综述:A Comprehensive Overview of the Developments in Attention Mechanism的更多相关文章

  1. TensorFlow LSTM 注意力机制图解

    TensorFlow LSTM Attention 机制图解 深度学习的最新趋势是注意力机制.在接受采访时,现任OpenAI研究主管的Ilya Sutskever提到,注意力机制是最令人兴奋的进步之一 ...

  2. 自适应注意力机制在Image Caption中的应用

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  3. (转)注意力机制(Attention Mechanism)在自然语言处理中的应用

    注意力机制(Attention Mechanism)在自然语言处理中的应用 本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html  近年来,深度 ...

  4. 注意力机制(Attention Mechanism)在自然语言处理中的应用

    注意力机制(Attention Mechanism)在自然语言处理中的应用 近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...

  5. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  6. 自然语言处理中的自注意力机制(Self-attention Mechanism)

    自然语言处理中的自注意力机制(Self-attention Mechanism) 近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力 ...

  7. 深度学习之注意力机制(Attention Mechanism)和Seq2Seq

    这篇文章整理有关注意力机制(Attention Mechanism )的知识,主要涉及以下几点内容: 1.注意力机制是为了解决什么问题而提出来的? 2.软性注意力机制的数学原理: 3.软性注意力机制. ...

  8. Pytorch系列教程-使用Seq2Seq网络和注意力机制进行机器翻译

    前言 本系列教程为pytorch官网文档翻译.本文对应官网地址:https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutor ...

  9. DeepLearning.ai学习笔记(五)序列模型 -- week2 序列模型和注意力机制

    一.基础模型 假设要翻译下面这句话: "简将要在9月访问中国" 正确的翻译结果应该是: "Jane is visiting China in September" ...

随机推荐

  1. 【python免费代码】设计一个简单的学生信息管理系统

    文章目录 前言 一.理解 二.部分截图展示 三.代码 四.总结 前言 设计一个简单的学生信息管理系统,实现以下功能(bug) : 录入学生信息,信息以文件方式存储 以学生学号或者学生姓名为条件查询该学 ...

  2. wireshark、tcpdump使用笔记

    最近使用wireshark抓包icmp协议,过滤的命令如下所示: ip.addr eq 192.168.20.54 and ip.addr eq 192.168.50.131 and (icmp) 如 ...

  3. XCTF练习题---MISC---easycap

    XCTF练习题---MISC---easycap flag:FLAG:385b87afc8671dee07550290d16a8071 解题步骤: 1.观察题目,下载附件 2.拿到手以后发现是一个流量 ...

  4. Flume 详解&实战

    Flume 1. 概述 Flume是一个高可用,高可靠,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. Flume的作用 Flume最主要的作用就是,实时读取服务器本地磁盘 ...

  5. SmartIDE v0.1.16 已经发布 - 支持阿里&蚂蚁开源的国产 IDE OpenSumi

    SmartIDE v0.1.16 (Build 3137) 已经在2022年4月19日发布到稳定版通道,我们在这个版本中增加了阿里和蚂蚁发布的国产IDE OpenSumi的支持,以及其他一些改进.Sm ...

  6. 【ACM程序设计】前缀和

    前缀和 ​ 前缀和是指某序列的前n项和,可以把它理解为数学上的数列的前n项和 作用: 一种预处理,求出的前缀和数组可以使得,输出原序列中从第l个数到第r个数和的时间复杂度变成了O(1) . 一维前缀和 ...

  7. 【hexo博客搭建】将搭建好的hexo博客部署到阿里云服务器上面(下)

    一.部署到阿里云服务器 既然博客也已经成功在本地部署,然后主题也成功安装,接下来就可以部署到服务器上面了,如果你也想要魔改matery主题,可以去各种博客上面找一找大佬的教程,或者联系我,也可以让你少 ...

  8. 【python疫情可视化】用pyecharts开发全国疫情动态地图,效果酷炫!

    一.效果演示 我用python开发了一个动态疫情地图,首先看下效果: 如图所示,地图根据实时数据通过时间线轮播的方式,动态展示数据的变化.随着时间的推移,疫情确诊数量的增多,地图各个省份颜色逐渐加深, ...

  9. HttpContext.TraceIdentifier那严谨的设计

    前言 Asp.Net Core中有一个不受人重视的属性HttpContext.TraceIdentifier,它在链路追踪中非常有用,下面是官方的定义: 在项目中一般会将该字段输出到每一条日志中,也可 ...

  10. 590. N-ary Tree Postorder Traversal - LeetCode

    Question 590. N-ary Tree Postorder Traversal Solution 题目大意:后序遍历一个树 思路: 1)递归 2)迭代 Java实现(递归): public ...