论文阅读：Reducing Transformer Depth On Demand With Structured Dropout

zyxxmu 2024-11-09 14:04:11 原文

Introduction

这篇paper是做Transformer压缩的，但其实bert的核心也就是transformer，这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了LayerDrop的方法，即一种结构化的dropout的方法来对transformer模型进行训练，从而在不需要fine-tune的情况下选择一个大网络的子网络。

这篇paper方法的核心是通过Dropout来去从大模型中采样子网络，但是这个dropout是对分组权重进行dropout的，具体而言，这篇paper是layerwise的dropout，可见下图：

作者提出的方法是用LayerDrop的方法只训练一遍网络，然后在测试的时候可以根据不同的需求来选择不同的深度。

Method

Transformer Architecture

首先回顾一下transformer的结构，一个transformer由若干个层组成，每个层包含一个多头注意力模块和一个全连接的前向层，每个注意力头的输入是一个矩阵X，X的每一行输入句子的每一个元素，然后进行下面的运算：

其中K、V、Q是三个参数矩阵，这一步输入的多个注意力头的结果会被拼接和变形为同样大小的X向量，然后经过一个全连接层：

然后transformer中其实还是有一个类似于ResNet的残差模块，因为在整个transformer中的生成的向量维度都一样，所以可以方便的进行addnorm操作来避免梯度消失的问题，同时transformer还引入了layer normalization的操作，这个是对同一层中的所有输出做标准化，而BN是对一个batch中的所有样本输出做标准化。

whatever，前面只是一个对transformer的复习~

Training Transformers with Random Structured Pruning

作者提出了一个可以让transformer能够在测试过程中使用不同深度的正则项训练方法，主要关注点在于剪枝层数。那为什么作者选择减少层数呢？举例而言，如果减少attention head的数量，那么其实是不能起到加速作用的，因为attention模块的计算是并行的。

那么最重要的问题就是要剪哪些层呢？作者考虑了不同的剪枝策略：

Every Other

即每隔一层就以一定概率剪枝一层
Search on Valid

计算不同组合的layer在验证集上的表现，这种往往非常耗时
Data Driven Pruning

对每一个layer学习一个参数p，使得全局剪枝率为p*，然后对每个layer的输出添加这么一个非线性函数，在前向的时候只选择计算分数最高的k个layer。

Conclusion

这篇transformer压缩其实主要的工作在于很多的实验，因为还不太了解这块的各种数据集，所以就没有细看实验。这篇paper通过结构化的dropout来对网络进行训练，主要剪的是层数。

论文阅读：Reducing Transformer Depth On Demand With Structured Dropout的更多相关文章

论文阅读---Reducing the Dimensionality of Data with Neural Networks
通过训练多层神经网络可以将高维数据转换成低维数据,其中有对高维输入向量进行改造的网络层.梯度下降可以用来微调如自编码器网络的权重系数,但是对权重的初始化要求比较高.这里提出一种有效初始化权重的方法,允 ...
BERT 论文阅读笔记
BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
论文阅读（Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework）
Lukas Neumann——[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recogn ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

随机推荐

centos7源码安装Apache及Tomcat
源码安装Apache (1) 一．通过 https://apr.apache.org/ 下载 APR 和 APR-util 通过 http://httpd.apache.org/download.c ...
awk命令及随机数的产生
3.sed 操作,将文件第9行至第15行的数据复制到第十六行 sed -i '9,15H;16G' 文件 4.用awk获取文件中的三行的倒数第二列字段 awk -F":" 'NR ...
Android Studio常用配置
目录 1. 主题颜色设置 2. Logcat颜色设置 3. 类注释 4. 编译器添加背景图 4.1 第一种方式 Background Image 4.2 第二种方式 Sexy Editor 5. 修改 ...
MySQL数据库入门详细笔记
ps: 中括号[]里的内容都是可以省略的,按需要添加数据库操作创建数据库语法:create database [if not exists] 数据名 charset=gbk; create da ...
STL--priority_queue--自定义数据类型
STL中priority_queue的声明模板有3个参数priority_queue<Type,Container,Functional>. 当使用的数据类型Type为自定义数据类型时有以 ...
POJ1088 滑雪题解+HDU 1078（记忆化搜索DP)
Description Michael喜欢滑雪百这并不奇怪, 因为滑雪的确很刺激.可是为了获得速度,滑的区域必须向下倾斜,而且当你滑到坡底,你不得不再次走上坡或者等待升降机来载你.Michael想知道 ...
python（re 模块）
1.re.match() 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. group() 以str形式返回对象中match的元素 start() 返回 ...
golang之channel
Buffered Channels package main import "fmt" func main() { ch := make(chan int, 2) ch <- ...
POJ2686(状压)
描述: \(m个城市有p条双向道路.道路的花费是道路的距离/票上的数字.给出n张票,求a->b的最短路\). 开始本来想老套路把城市状态来压缩,但城市最多可以有30个,故考虑把船票压缩. 定义\ ...
Codeforces Round #626 D. Present
D. Present 题目大意:给你一个大小是n的序列,求两两之间相加进行异或之后的答案. 这个题目我并没有想到怎么写,有点偷懒于是就去看了题解.. 题解很套路... 题解: 因为这个是用到了异或,所 ...