上节课回顾

0：40

Attention

Self-Attention

Self-Attention 其实是 Attention 的一个具体做法

给定一个 X，通过自注意力模型，得到一个 Z，这个 Z 就是对 X 的新的表征（词向量），Z 这个词向量相比较 X 拥有了句法特征和语义特征

Multi-Head Self-Attention（多头自注意力）

Z 相比较 X 有了提升，通过 Multi-Head Self-Attention，得到的 \(Z{'}\) 相比较 Z 又有了进一步提升

多头自注意力，问题来了，多头是什么，多头的个数用 h 表示，一般\(h=8\)，我们通常使用的是 8 头自注意力

什么是多头

如何多头 1

对于 X，我们不是说，直接拿 X 去得到 Z，而是把 X 分成了 8 块（8 头），得到 Z0-Z7

如何多头 2

然后把 Z0-Z7 拼接起来，再做一次线性变换（改变维度）得到 Z

有什么作用？

机器学习的本质是什么：y=\(\sigma\)(wx+b)，在做一件什么事情，非线性变换（把一个看起来不合理的东西，通过某个手段（训练模型），让这个东西变得合理）

非线性变换的本质又是什么？改变空间上的位置坐标，任何一个点都可以在维度空间上找到，通过某个手段，让一个不合理的点（位置不合理），变得合理

这就是词向量的本质

one-hot 编码（0101010）

word2vec（11，222，33）

emlo（15，3，2）

attention（124，2，32）

multi-head attention（1231，23，3），把 X 切分成 8 块（8 个子空间），这样一个原先在一个位置上的 X，去了空间上 8 个位置，通过对 8 个点进行寻找，找到更合适的位置

词向量的大小是 512

假设你的任务，视频向量是 5120，80

对计算机的性能提出了要求

多头流程图

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）的更多相关文章

day22——从空间角度研究类、类与类之间的关系
day22 从空间角度研究类何处添加对象属性在类的______init______可以添加 class Human: mind = "有思想的" def __init__(se ...
Python进阶(十四)----空间角度研究类,类与类之间的关系
Python进阶(十四)----空间角度研究类,类与类之间的关系一丶从空间角度研究类对象操作对象属性 class A(): address = '沙河' def __init__(self, na ...
is id() == 从内存的最小化占用角度解释我是孕育者，我也应该这样设计变，必然伴随着加法一个list是否可以执行set()
def f(a, b): print(a is b, b is a, a == b, a.__eq__(b), id(a), id(b)) f(2, 2) f([2], [2]) f('2', '2' ...
每天3分钟操作系统修炼秘籍（13）：两个缓冲空间Kernel Buffer和IO Buffer
两个缓冲空间:kernel buffer和io buffer 先看一张图,稍后将围绕这张图展开描述.图中的fd table.open file table以及两个inode table都可以不用理解, ...
从Go语言编码角度解释实现简易区块链
区块链技术人们可以用许多不同的方式解释区块链技术,其中通过加密货币来看区块链一直是主流.大多数人接触区块链技术都是从比特币谈起,但比特币仅仅是众多加密货币的一种. 到底什么是区块链技术? 从金融学相 ...
三种角度解释href/src/link/import区别
网上查到的几种不同但比较容易理解的解释解释一: href是Hypertext Reference的缩写,表示超文本引用.用来建立当前元素和文档之间的链接.常用的有:link.a.例如: <li ...
从Go语言编码角度解释实现简易区块链——实现交易
在公链基础上实现区块链交易区块链的目的,是能够安全可靠的存储交易,比如我们常见的比特币的交易,这里我们会以比特币为例实现区块链上的通用交易.上一节用简单的数据结构完成了区块链的公链,本节在此基础上对 ...
2022年7月13日，第四组，周鹏，JS做计算器代码
代码不难,看了我前面笔记的应该能看懂. 没看?(=￣ω￣=)喵了个咪(๑‾᷅^‾᷅๑) 嫌弃你还看啥,去看啊!要不直接复制代码吧!(￣へ￣)(￣へ￣)(￣へ￣) Document 0 / * - 7 ...
【NLP】Attention Model（注意力模型）学习总结
最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制( ...
attention机制七搞八搞
注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权 ...

随机推荐

【Java】数组强转问题
问题产生问题代码: List<String> strs = new LinkedList<String>(); // 中间有添加元素的操作,这里省略... // 这里toAr ...
【Java】逗号拼接的取巧处理
需求如图: 这是表的关键处理数据,页面上的输入框要做分开展示,也就是要写业务逻辑来处理逗号拼接的取巧处理,使用了List集合toString方法来实现,然后移除括号 final String emp ...
【托普斯的力场】—— ARPG游戏《艾尔登法环》中的人物：托普斯
地址: https://youtube.com/shorts/oSIbOQ_r4fA?si=F-knFwjZ3iPXqPeS https://www.bilibili.com/video/BV1fV4 ...
【转载】冲压过程仿真模拟及优化 —— 冲压仿真的方法分类PPT
地址: https://www.renrendoc.com/paper/310415051.html
jax框架的 Pallas 方式的GPU扩展不可用
说下深度学习框架的GPU扩展功能的部分,也就是使用个人定制化的GPU代码编写方式来为深度学习框架做扩展. 深度学习框架本身就是一种对GPU功能的一种封装和调用,但是由于太high-level,因此就会 ...
gym中所有可以用的模拟环境
python 代码: from gym import envs for env in envs.registry.all(): print(env.id) 打印出可用环境: Copy-v0 Repea ...
使用 onNuxtReady 进行异步初始化
title: 使用 onNuxtReady 进行异步初始化 date: 2024/8/16 updated: 2024/8/16 author: cmdragon excerpt: 摘要:本文详细介绍 ...
手把手教你安装MINIGUI编程环境（MINIGUI版本3.2.0）
0. MINIGUI MiniGUI 是一款面向嵌入式系统的高级窗口系统(Windowing System)和图形用户界面(Graphical User Interface,GUI)支持系统,由魏永明 ...
【CMake系列】02-第一个CMake项目
本节我们用CMake 构建我们的第一个helloword的项目,从更细的粒度上了解CMake在做什么,对编写CMakeLists.txt 进入初步引入本专栏的实践代码全部放在 github 上,欢迎 ...
harbor重启后无法自启动解决方案
1. 创建 systemd 服务单元文件编辑服务文件: 使用以下命令创建并编辑 systemd 服务文件: sudo vim /etc/systemd/system/harbor.service 添 ...

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）