标准化

\[y = \frac{x-E(x)}{\sqrt{Var(x)+\epsilon}}*\gamma+\beta
\]

\(E(x)\) 对 x 求均值

\(Var(x)\) 对 x 求方差

\(\epsilon\) 加在方差上的数字，避免分母为0；

\(\gamma\)和\(\beta\) 为学习参数，二者均可学习随着训练过程而变化；

class LayerNorm(nn.Module):

    def __init__(self, feature, eps=1e-6):

        """

        :param feature: self-attention 的 x 的大小

        :param eps:

        """

        super(LayerNorm, self).__init__()

        self.a_2 = nn.Parameter(torch.ones(feature))

        self.b_2 = nn.Parameter(torch.zeros(feature))

        self.eps = eps

    def forward(self, x):

        mean = x.mean(-1, keepdim=True)

        std = x.std(-1, keepdim=True)

        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

残差+标准化

class SublayerConnection(nn.Module):

    """

    这不仅仅做了残差，这是把残差和 layernorm 一起给做了

    """

    def __init__(self, size, dropout=0.1):

        super(SublayerConnection, self).__init__()

        # 第一步做 layernorm

        self.layer_norm = LayerNorm(size)

        # 第二步做 dropout

        self.dropout = nn.Dropout(p=dropout)

    def forward(self, x, sublayer):

        """

        :param x: 就是self-attention的输入

        :param sublayer: self-attention层

        :return:

        """

        return self.dropout(self.layer_norm(x + sublayer(x)))

02 Transformer 中 Add&Norm （残差和标准化）代码实现的更多相关文章

无所不能的Embedding6 - 跨入Transformer时代～模型详解&代码实现
上一章我们聊了聊quick-thought通过干掉decoder加快训练, CNN-LSTM用CNN作为Encoder并行计算来提速等方法,这一章看看抛开CNN和RNN,transformer是如何只 ...
Calendar中add函数和roll函数的用法及区别
Calendar中add()和roll()函数的用法一.取某个时间点后的整点时刻.例如1984年7月7日15:23:05后的整点时刻即为1984-07-07 16:00:00.实现如下:Calenda ...
2018-02-02-解决IDE中无法忽略的非代码文件
layout: post title: 2018-02-02-解决IDE中无法忽略的非代码文件 key: 20180202 tags: GIT 版本管理 modify_date: 2018-02-02 ...
VS中使用.NET Reactor进行代码混淆
.NET Reactor相信大家都不陌生,网上使用教程也很多.但绝大多数都只介绍到软件的使用,而对于在VS中使用介绍的不多. 首先,在.NET Reactor的Help中Add In,如下图. 重启V ...
03_Android NDK中C语言调用Java代码，javah的使用，javap的使用以及生成签名，Android.mk的编写，C代码的编写
1 案例场景,通过C语言回调Java的代码,案例的最终界面: 2 案例的代码结构如下: 3 编写DataProvider的代码: package com.example.ndkcallbac ...
【译】在Transformer中加入相对位置信息
目录引言动机解决方案概览注释实现高效实现结果结论参考文献本文翻译自How Self-Attention with Relative Position Representation ...
Transformer中引用iqd作为数据源的时候数据预览出现乱码
在cognos开发利用transform建模的过程中导入iqd数据源预览乱码问题,下面先描述一下环境操作系统版本: [root@enfo212 ~]# cat /proc/version Linux ...
eclipse中提示js或者JQuery代码
当你在eclipse中的JSP中写JavaScript或者JQuery代码的时候,eclipse是不会自动提示的,所以你需要在eclipse中安装一下插件,该插件的名字叫:Spket IDE,它可以作 ...
详解C#泛型（二）获取C#中方法的执行时间及其代码注入详解C#泛型（一）详解C#委托和事件（二）详解C#特性和反射（四）记一次.net core调用SOAP接口遇到的问题 C# WebRequest.Create 锚点“#”字符问题根据内容来产生一个二维码
详解C#泛型(二) 一.自定义泛型方法(Generic Method),将类型参数用作参数列表或返回值的类型: void MyFunc<T>() //声明具有一个类型参数的泛型方法 { ...
向项目中添加dtd文件实现代码提示
我们在编辑代码的过程中,有代码提示的编辑工具总是受到青睐. 本文将讲解怎么在eclipse中加入dtd文件实现代码提示.myeclipse同理选择window,选择perferences,然后拉到下 ...

随机推荐

【JavaWeb】如何越过SpringMVC直接返回内容
来自前同事问的一个问题,因为项目里面的SpringMVC会封装好一个固定的JSON响应规范: 可以看见,data属性下面,又会有一层data, 数据的消费方提出要求,只需要里面data的数据,外面的J ...
同策略强化学习算法可以使用经验缓存池（experience buffer）吗？？？设计一个基于缓存池的改进reinforce算法，给出初步的尝试 ---------- （reinforce + experience buffer）
本文使用代码地址: https://gitee.com/devilmaycry812839668/reinforce_with_-experience-buffer ================= ...
MindSpore计算框架如何发布训练好的模型到官方模型仓库MindSpore_Hub上
相关官方资料: https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/publish_model.html 参考地址: https://g ...
nvme硬盘的断电保护是否有用，是噱头、智商税还是真的有需要？购买DOCKCASE智能M2固态硬盘盒10秒保护
最近在某东上买了一个10秒断电保护的nvme硬盘,其实对于这个断电保护有用没有用我是不懂的,也是不care的,买这个硬盘盒主要就是为了这个屏幕去的,不过东西到手后我就开始思考这个断电保护到底有用没有用 ...
记录实验室深度学习服务器显卡硬件故障的排查——RmInitAdapter failed! rm_init_adapter failed
实验室突然通知我说是深度学习的服务器无法查看GPU,并且在GPU上运行的程序也halt on,需要解决.于是查询服务器的运行日志得到下面的信息: Nov 10 01:33:23 dell kernel ...
[工具分享]ClipX超级粘贴板,超级好用
1.背景话说粘贴.复制是码农们的必备核心技能, 普通码农们当然已经熟练的掌握了普通的粘贴复制.... 但是,你不知道的是,牛逼的架构师已经会使用超级粘贴板了,功能非常强大 ............. ...
作业帮基于 DolphinScheduler 的数据开发平台实践
摘要随着任务数量.任务类型需求不断增长,对我们的数据开发平台提出了更高的要求.本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思 ...
在python项目的docker镜像里使用pdm管理依赖
前言在 DjangoStarter 项目中,我已经使用 pdm 作为默认的包管理器,不再直接使用 pip 所以部署的时候 dockerfile 和 docker-compose 配置也得修改一下. ...
关于REACT范式的一些思考
关于REACT范式的一些思考 REACT范式经过近一年的探索,让我们在很多领域有了非常广泛的应用,它确实提升了很多之前无法解决的问题,比如大模型虽然在语言理解和交互式决策方面在任务中表现出令人印象深刻 ...
zabbix 4.0汉化
一.主机名支持中文 1.在/usr/share/zabbix/include/defines.inc.php文件中修改,大概在1092行(zabbix-4.0),加入中文字符支持, 原始正则: def ...

02 Transformer 中 Add&Norm （残差和标准化）代码实现

标准化

残差+标准化

02 Transformer 中 Add&Norm （残差和标准化）代码实现的更多相关文章

随机推荐

热门专题