关于Transformer中feed forward layer理解

今天记录一下个人关于Transformer中前馈神经网络（FFN）的一点理解。

第一点，我们知道，FFN之前是有一个多头注意力机制的模块。我们可以想想一下，如果这个模块直接输出，不经过FFN层会发生什么，要知道多头注意力（MH）是没有激活函数的，那么最后只有一个结果，那就是很多头的输出就是一个极为相似的结果。这并不是我们想要的结果，所以这个时候，我们可以考虑使用FFN层，因为这个结构可以提供更好的特征表达能力（也就是提供了非线性，非线性很重要，不然DL就没法搞那么深了）。

第二点，关于self-attention这个模块，该模块其实就是学习某个特征与其余其他特征之间的相似度分数，然后利用softmax归一化成注意力分数，之后对某个特征与其他特征的相似性进行加权输出。而这个过程就意味着self-attention输出的并不是上下文语义嵌入，而是原始上下文本身（就是怎么输进去就怎么输出来，只不过输出来的值是带有权重的，比如，我去店里买咖啡，从店里出来时我带着咖啡这个权重，只不过我还是我，并没有变。感觉这比喻有点问题，但是我只能这么理解了）。所以这个时候就需要考虑利用FNN考察特征语义不同部分之间的关系（通过非线性变换来实现）。感觉有点像self-attention先去前方打探好多个敌人的不同情况，之后FFN根据不同的敌人做调整。

第三点、在使用self-attention实际上是做了一个线性变换，也就是第一点提到的，训练到后期，输出值都相似。所以之后需要加入FNN提高特征的表达能力（也就是添加非线性ReLU）。其次self-attention只解决了特征之间的长远距离依赖关系，并没有对特征进行提取，也就是第二点提到的。

以上就是我的个人参考一些资料的理解，之后再有新的想法，继续补充。有人知道其他原因的话，欢迎评论区。

关于Transformer中feed forward layer理解的更多相关文章

【译】在Transformer中加入相对位置信息
目录引言动机解决方案概览注释实现高效实现结果结论参考文献本文翻译自How Self-Attention with Relative Position Representation ...
RNN: Feed Forward, Back Propagation Through Time and Truncated Backpropagation Through Time
原创作品,转载请注明出处哦~ 了解RNN的前向.后向传播算法的推导原理是非常重要的,这样, 1. 才会选择正确的激活函数: 2. 才会选择合适的前向传播的timesteps数和后向传播的timeste ...
怎样在caffe中添加layer以及caffe中triplet loss layer的实现
关于triplet loss的原理.目标函数和梯度推导在上一篇博客中已经讲过了.详细见:triplet loss原理以及梯度推导.这篇博文主要是讲caffe下实现triplet loss.编程菜鸟.假 ...
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
SQL SERVER 2005/2008 中关于架构的理解(二)
本文上接SQL SERVER 2005/2008 中关于架构的理解(一) 架构的作用与示例用户与架构(schema)分开,让数据库内各对象不再绑在某个用户账号上,可以解决SQL SERVE ...
SQL SERVER 2005/2008 中关于架构的理解(一)
SQL SERVER 2005/2008 中关于架构的理解(一) 在一次的实际工作中碰到以下情况,在 SQL SERVER 2008中,新建了一个新用户去访问几张由其他用户创建的表,但是无法进行查询, ...
Struts2中<jsp:forward page="xxx.action"></jsp:forward>失效
问题:在Struts2中<jsp:forward page="xxx.action"></jsp:forward>失效了,不但调转不过去还报404错误.不知 ...
C++中类的构造函数理解（一）
C++中类的构造函数理解(一) 写在前面这段时间完成三个方面的事情: 1.继续巩固基础知识(主要是C++ 方面的知识) 2.尝试实现一个iOS的app,通过完成app,学习iOS开发中要用到的知识 ...
ECshop中的session机制理解
ECshop中的session机制理解在网上找了发现都是来之一人之手,也没有用自己的话去解释,这里我就抛砖引玉,发表一下自己的意见,还希望能得到各界人士的指导批评! 此session机制不需 ...
[开发技巧]·Numpy中对axis的理解与应用
[开发技巧]·Numpy中对axis的理解与应用 1.问题描述在使用Numpy时我们经常要对Array进行操作,如果需要针对Array的某一个纬度进行操作时,就会用到axis参数. 一般的教程都是针 ...

随机推荐

docker 安装 centos8 mysql8 java tomcat
docker 安装 centos8 mysql8 java tomcat 一,首先在window10系统安装docker,这里就不再描述了. 二,启动docker下载安装centos8镜像注意: ...
【设计模式 Design Pattern】【UML】建模语言
什么是UML图? UML-Unified Modeling Language 统一建模语言,又称标准建模语言. 是用来对软件密集系统进行可视化建模的一种语言. UML的定义包括UML语义和UML表示法 ...
OneFlow框架0.9.1dev版本，成功安装并运行
安装cuda和cudnn: (此步骤可以忽略,pip安装框架时会自动安装依赖的cuda和cudnn环境) conda install cudatoolkit==11.8.0 python3 -m pi ...
外网的一个还不错的高性能计算教程： High Performance Computing
地址: https://info.gwdg.de/wiki/doku.php?id=wiki:hpc:start =========================================== ...
Linux环境下配置vscode的C/C++ 的make编译环境（编写makefile方式）代码Demo版
以前写过同样话题下的图文版的,这里给出一个代码Demo版本,上一个图文版本参见: Linux环境下配置vscode的C/C++ 的make编译环境(编写makefile方式) ============ ...
# Apache SeaTunnel 究竟是什么？
作者 | Shawn Gordon 翻译 | Debra Chen 原文链接 | What the Heck is Apache SeaTunnel? 我在2023年初开始注意到Apache SeaT ...
@ComponentScan
@ComponentScan 是一个注解,用于Spring框架,它允许开发者指定Spring应该扫描哪个包或包下的子包来寻找组件(如@Component.@Service.@Repository等注解 ...
mysql8.0 主从架构模式【0到1架构系列】
前提条件准备3,4,5台虚拟机祼装mysql8.0 主从架构常见两种模式"一主多从"和"级联复制"两种,基本都很简单,都是依赖binlog日志文件进行同步 ...
Antd-React-TreeSelect前端搜索过滤
在开发过程中,但是antd中的搜索会把多余的也会带出来就例如下图,我们本想去搜索1但是他会把其子节点都带出来,其实我们的本意是像搜2一样或者当中间隔层处理但是我们该如何解决这样的问题呢如何做到下面 ...
Linux离线安装Tomcat
系统环境: centos7.3.1611 openjdk version "1.8.0_102" apache-tomcat-9.0.36.tar.gz tomcat 安装 #链接 ...

关于Transformer中feed forward layer理解

关于Transformer中feed forward layer理解的更多相关文章

随机推荐

热门专题