通过 pytorch 去构建一个 transformer 的框架

不是导包，不是调包侠

注意力机制是一个很宽泛（宏大）的一个概念，QKV 相乘就是注意力，但是他没有规定 QKV是怎么来的

通过一个查询变量 Q，去找到 V 里面比较重要的东西

假设 K==V，然后 QK 相乘求相似度A，然后 AV 相乘得到注意力值Z，这个 Z 就是 V 的另外一种形式的表示

Q 可以是任何一个东西，V 也是任何一个东西， K往往是等同于 V 的（同源），K和 V 不同源不相等可不可以

他没有规定 QKV 怎么来，他只规定 QKV 怎么做

注意力机制

自注意力机制

自注意力机制，特别狭隘，属于注意力机制的，注意力机制包括自注意力机制的

本质上 QKV 可以看做是相等的

对于一个词向量（不一定准确），做的是空间上的对应，乘上了参数矩阵，依然代表 X

不仅规定了 QKV 同源，而且固定了 QKV 的做法

交叉注意力机制

Q 和 V 不同源，但是 K 和 V 同源

cyd 注意力机制

Q 和 V 同源，Q 和 K 不同源

xxx 注意力机制

Q 必须为 1，K 和 V 不同源

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）的更多相关文章

注意力机制---Attention、local Attention、self Attention、Hierarchical attention
一.编码-解码架构目的:解决语音识别.机器翻译.知识问答等输出输入序列长度不相等的任务. C是输入的一个表达(representation),包含了输入序列的有效信息. 它可能是一个向量,也可能是一 ...
可视化展示attention(seq2seq with attention in tensorflow)
目前实现了基于tensorflow的支持的带attention的seq2seq.基于tf 1.0官网contrib路径下seq2seq 由于后续版本不再支持attention,迁移到melt并做了进一 ...
全栈工程师对Python面试中is和==区别的详细解说！看完真的学到了！
面试实习生的时候,当问到 is 和 == 的区别时,很多同学都答不上来,搞不清两者什么时候返回一致,什么时候返回不一致.本文我们来看一下这两者的区别. 我们先来看几个例子: a = "hel ...
（转）注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用本文转自:http://www.cnblogs.com/robert-dlut/p/5952032.html 近年来,深度 ...
注意力机制（Attention Mechanism）在自然语言处理中的应用
注意力机制(Attention Mechanism)在自然语言处理中的应用近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了 ...
《Attention is All You Need》
https://www.jianshu.com/p/25fc600de9fb 谷歌最近的一篇BERT取得了卓越的效果,为了研究BERT的论文,我先找出了<Attention is All You ...
对Attention is all you need 的理解
https://blog.csdn.net/mijiaoxiaosan/article/details/73251443 本文参考的原始论文地址:https://arxiv.org/abs/1706. ...
注意力机制（Attention Mechanism）应用——自然语言处理（NLP）
近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,下面是一些基于attention机制的神经网络在 ...
深度学习方法（九）：自然语言处理中的Attention Model注意力模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 上一篇博文深度学习方法(八):Enc ...
Attention机制全解
前言之前已经提到过好几次Attention的应用,但还未对Attention机制进行系统的介绍,之后的实践模型attention将会用到很多,因此这里对attention机制做一个总结. Seq2S ...

随机推荐

【ActiveJdbc】03
一.查询API 简单条件筛选: List<Person> list = Person.where("name = 'John'") 动态参数条件: List<Pe ...
【转载】 CPU漏洞 —— 一步一步理解CPU芯片漏洞：Meltdown与Spectre
原文: https://www.freebuf.com/articles/system/159811.html 参考: https://blog.csdn.net/xy010902100449/art ...
如何将 Vim 剪贴板里面的东西粘贴到 Vim 之外的地方？（Ubuntu18.04系统亲测）
主要参考内容: https://www.zhihu.com/question/19863631 在vim中剪贴中的内容是难以在vim之外使用的,那么怎么修改这个问题呢? =============== ...
python语言版（代码）：计算百分数的概率单位
相关资料: [转载]百分数的概率单位变换--解惑:概率确实没有单位但是数学里面确实有"概率单位"这个词百分比与概率单位对照表 https://www.docin.com/p-22 ...
Jetpack架构组件学习(5)——Hilt 注入框架使用
原文: Jetpack架构组件学习(5)--Hilt 注入框架使用-Stars-One的杂货小窝本篇需要有Kotlin基础知识,否则可能阅读本篇会有所困难! 介绍说明实际上,郭霖那篇文章已经讲得比 ...
Go进程内存占用那些事（二）
0x01 最简单的Go程序 package main import ( "fmt" "time" ) func main() { fmt.Println(&qu ...
关于EF延时加载的面试题
public async Task<ActionResult> GetData() { var data = (from leftdata in GetLeft() join rightd ...
SVG Video 声音图标灰色，无法点击
原因:Video里的视频放的是录屏,怪不得声音图标是灰色的换成正常有声音的mp4文件,声音图标就正常了
JDK有用的新特性-Switch
目录箭头表达式,新的 case 标签 yeild 返回值 Java Record Switch 的三个方面,参考: JEP 361 支持箭头表达式支持 yied 返回值支持 Java Recor ...
后缀数组，SA
主要是 \(O(n\log n)\) 倍增求 SA. (为什么这么短) const int N = 1e6 + 9; int n; int sa[N], sa_tmp[N], rk[N], ork[N ...

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）