论文阅读：Reducing Transformer Depth On Demand With Structured Dropout

zyxxmu 2024-11-09 14:04:11 原文

Introduction

这篇paper是做Transformer压缩的，但其实bert的核心也就是transformer，这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了LayerDrop的方法，即一种结构化的dropout的方法来对transformer模型进行训练，从而在不需要fine-tune的情况下选择一个大网络的子网络。

这篇paper方法的核心是通过Dropout来去从大模型中采样子网络，但是这个dropout是对分组权重进行dropout的，具体而言，这篇paper是layerwise的dropout，可见下图：

作者提出的方法是用LayerDrop的方法只训练一遍网络，然后在测试的时候可以根据不同的需求来选择不同的深度。

Method

Transformer Architecture

首先回顾一下transformer的结构，一个transformer由若干个层组成，每个层包含一个多头注意力模块和一个全连接的前向层，每个注意力头的输入是一个矩阵X，X的每一行输入句子的每一个元素，然后进行下面的运算：

其中K、V、Q是三个参数矩阵，这一步输入的多个注意力头的结果会被拼接和变形为同样大小的X向量，然后经过一个全连接层：

然后transformer中其实还是有一个类似于ResNet的残差模块，因为在整个transformer中的生成的向量维度都一样，所以可以方便的进行addnorm操作来避免梯度消失的问题，同时transformer还引入了layer normalization的操作，这个是对同一层中的所有输出做标准化，而BN是对一个batch中的所有样本输出做标准化。

whatever，前面只是一个对transformer的复习~

Training Transformers with Random Structured Pruning

作者提出了一个可以让transformer能够在测试过程中使用不同深度的正则项训练方法，主要关注点在于剪枝层数。那为什么作者选择减少层数呢？举例而言，如果减少attention head的数量，那么其实是不能起到加速作用的，因为attention模块的计算是并行的。

那么最重要的问题就是要剪哪些层呢？作者考虑了不同的剪枝策略：

Every Other

即每隔一层就以一定概率剪枝一层
Search on Valid

计算不同组合的layer在验证集上的表现，这种往往非常耗时
Data Driven Pruning

对每一个layer学习一个参数p，使得全局剪枝率为p*，然后对每个layer的输出添加这么一个非线性函数，在前向的时候只选择计算分数最高的k个layer。

Conclusion

这篇transformer压缩其实主要的工作在于很多的实验，因为还不太了解这块的各种数据集，所以就没有细看实验。这篇paper通过结构化的dropout来对网络进行训练，主要剪的是层数。

论文阅读：Reducing Transformer Depth On Demand With Structured Dropout的更多相关文章

论文阅读---Reducing the Dimensionality of Data with Neural Networks
通过训练多层神经网络可以将高维数据转换成低维数据,其中有对高维输入向量进行改造的网络层.梯度下降可以用来微调如自编码器网络的权重系数,但是对权重的初始化要求比较高.这里提出一种有效初始化权重的方法,允 ...
BERT 论文阅读笔记
BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君 ...
论文阅读（Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition）
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
BITED数学建模七日谈之三：怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
论文阅读（Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework）
Lukas Neumann——[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recogn ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

随机推荐

如何用hugo 搭建博客
1,Hugo 简介搭建个人博客有很多开源的博客框架,我们要介绍的框架叫作Hugo.Hugo 是一个基于Go 语言的框架,可以快速方便的创建自己的博客. Hugo 支持Markdown 语法,我们可以 ...
HTML JavaScript 基础（上）
一.初识JavaScript JavaScript 和 Java什么关系? 半毛线关系都没有,只是名字有点重合而已. JavaScript 和python.C#.Java.Ruby一样,都是一门独立的 ...
《Python游戏编程快速上手》——1.3 如何使用本书
本节书摘来自异步社区<Python游戏编程快速上手>一书中的第1章,第1.3节,作者[美] Al Sweigart(斯维加特),李强译,更多章节内容可以访问云栖社区"异步社区& ...
全网最清晰的ConstraintLayout教程
ConstraintLayout是AndroidStudio2.2新增的一个功能,那么这个到底是什么呢?首先第一点我们知道传统的安卓开发,页面基本都是XML编写实现,特别在一些复杂的页面上需要嵌套多层 ...
什么是动态规划？动态规划的意义是什么？https://www.zhihu.com/question/23995189
阮行止上海洛谷网络科技有限公司讲师 intro 很有意思的问题.以往见过许多教材,对动态规划(DP)的引入属于"奉天承运,皇帝诏曰"式:不给出一点引入,见面即拿出一大堆公式吓人 ...
C++--浅谈开发系统的经验
最近写了不少类了,从垃圾代码爬坑,虽然还是很垃圾,但是照葫芦画瓢,有几分神韵.在这里总结一下,写类的经验教训. 第一步分析: 当拿到一个要求时,要先去考虑怎样一个类到底该实现什么样的功能,有什么样的 ...
mysql查询表内所有字段名和备注
select distinct column_name as 字段名,column_comment as 字段备注 from information_schema.columns where tabl ...
.NET Core技术研究-通过Roslyn代码分析技术规范提升代码质量
随着团队越来越多,越来越大,需求更迭越来越快,每天提交的代码变更由原先的2位数,暴涨到3位数,每天几百次代码Check In,补丁提交,大量的代码审查消耗了大量的资源投入. 如何确保提交代码的质量和提 ...
再谈 PHP 未来之路
前段时间我写过一篇博文<phper:敢问路在何方>,分析了 PHPer 的困境以及 PHP 程序员的学习.进阶突破之路.同时我在知乎上也发过类似的提问.从大家的评论和回答看,大体分为以下几 ...
vue 之 slot插槽
插槽,也就是slot,是组件的一块HTML模板,这块模板显示不显示.以及怎样显示由父组件来决定. 实际上,一个slot最核心的两个问题这里就点出来了,父组件决定插槽显示或不显示以及怎样显示,子组件决定 ...