注意力(Attention)与Seq2Seq的区别

什么是注意力（Attention）？

　　注意力机制可看作模糊记忆的一种形式。记忆由模型的隐藏状态组成，模型选择从记忆中检索内容。深入了解注意力之前，先简要回顾Seq2Seq模型。传统的机器翻译主要基于Seq2Seq模型。该模型分为编码层和解码层，并由RNN或RNN变体（LSTM、GRU等）组成。编码矢量是从模型的编码部分产生的最终隐藏状态。该向量旨在封装所有输入元素的信息，以帮助解码器进行准确的预测。其用于充当模型解码器部分的初始隐藏状态。

　　Seq2Seq模型的主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长，则很容易丢失文本的某些信息。为解决这个问题，注意力应运而生。注意机制通过使解码器回顾源序列隐藏状态，然后将其加权平均值作为附加输入提供给解码器来缓解该问题。使用注意力，顾名思义，模型在解码阶段选择最适合当前节点的上下文作为输入内容。

注意力与传统的Seq2Seq模型有两个主要区别：

　　第一，编码器向解码器提供更多数据，并且编码器会向解码器提供所有节点的隐藏状态，而不仅仅是编码器的最后节点的隐藏状态。

　　第二，解码器不直接将所有编码器提供的隐藏状态作为输入，而是采用选择机制来选择与当前位置最匹配的隐藏状态。为此，它尝试通过计算每个隐藏状态的得分值并对得分进行softmax计算来确定哪个隐藏状态与当前节点相关性最高，这使得隐藏状态的更高相关性具有更大的分数值，不太相关的隐藏状态具有较小的分数值。然后它将每个隐藏状态与其softmax得分相乘，从而放大分数高的隐藏状态，淹没分数低的隐藏状态。该评分练习在解码器侧的每个迭代时间完成。

参考：

https://baijiahao.baidu.com/s?id=1646339383512667132&wfr=spider&for=pc

注意力(Attention)与Seq2Seq的区别的更多相关文章

L11注意力机制和Seq2seq模型
注意力机制在"编码器-解码器(seq2seq)"⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息.当编码器为循环神经⽹络时,背景变量 ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
注意力机制和Seq2seq模型
注意力机制在"编码器-解码器(seq2seq)"⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息.当编码器为循环神经⽹络时,背景变量 ...
深度学习之seq2seq模型以及Attention机制
RNN,LSTM,seq2seq等模型广泛用于自然语言处理以及回归预测,本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用. 1. seq2seq模型介绍 seq2se ...
深度学习之Attention Model（注意力模型）
1.Attention Model 概述深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观 ...
【NLP】Attention Model（注意力模型）学习总结
最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制( ...
keras系列︱seq2seq系列相关实现与案例（feedback、peek、attention类型）
之前在看<Semi-supervised Sequence Learning>这篇文章的时候对seq2seq半监督的方式做文本分类的方式产生了一定兴趣,于是开始简单研究了seq2seq.先 ...
[深度概念]·Attention Model（注意力模型）学习笔记
此文源自一个博客,笔者用黑体做了注释与解读,方便自己和大家深入理解Attention model,写的不对地方欢迎批评指正.. 1.Attention Model 概述深度学习里的Attention ...
RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型总结
RNN RNN的发源: 单层的神经网络(只有一个细胞,f(wx+b),只有输入,没有输出和hidden state) 多个神经细胞(增加细胞个数和hidden state,hidden是f(wx+b) ...

随机推荐

全网最全！彻底弄透Java处理GMT/UTC日期时间
目录前言本文提纲版本约定正文 Date类型实现时区/偏移量TimeZone 设置默认时区让人恼火的夏令时 Date时区无关性读取字符串为Date类型 SimpleDateFormat格式 ...
利用sklearn进行字典&文本的特征提取
写在前面这篇博客主要内容: 应用DictVectorizer实现对类别特征进行数值化.离散化应用CountVectorizer实现对文本特征进行数值化特征提取API sklearn.featur ...
探索微软开源Python自动化神器Playwright
相信玩过爬虫的朋友都知道selenium,一个自动化测试的神器工具.写个Python自动化脚本解放双手基本上是常规的操作了,爬虫爬不了的,就用自动化测试凑一凑. 虽然selenium有完备的文档,但也 ...
用动图讲解分布式 Raft
一.Raft 概述 Raft 算法是分布式系统开发首选的共识算法.比如现在流行 Etcd.Consul. 如果掌握了这个算法,就可以较容易地处理绝大部分场景的容错和一致性需求.比如分布式配置系统.分布 ...
hive 时间相关的函数
yyyy-MM-dd与yyyyMMdd000000转换的三种方法方法一:date_format(只支持yyyy-MM-dd -> yyyyMMdd000000) select date_for ...
UDP flood UDP Port Denial-of-Service Attack
https://baike.baidu.com/item/UDP%20flood/5504851 UDPFlood是日渐猖厥的流量型DoS攻击,原理也很简单.常见的情况是利用大量UDP小包冲击DNS服 ...
截屏转base64 调用栈
房产经纪人页面错误信息采集方案 https://mp.weixin.qq.com/s/tznlHs3XRwJFQtGiCwp15w function captureScreen() { var ...
C# 防止程序多开（重复开启）
Mutex(mutual exclusion,互斥)是 .Net Framework 中提供跨多个线程同步访问的一个类.它非常类似了 Monitor 类,因为他们都只有一个线程能拥有锁定.而操作系统能 ...
https://www.hutool.cn/ 糊涂
一个Java基础工具类,对文件.流.加密解密.转码.正则.线程.XML等JDK方法进行封装,组成各种Util工具类,同时提供以下组件: 模块介绍 hutool-aop JDK动态代理封装,提供非IO ...
Python3 如何查看内置函数都有哪些？
数据科学交流群,群号:189158789,欢迎各位对数据科学感兴趣的小伙伴的加入! 上代码: 1 import builtins 2 num = len(dir(builtins)) 3 print( ...

注意力(Attention)与Seq2Seq的区别

注意力(Attention)与Seq2Seq的区别的更多相关文章

随机推荐

热门专题