问题描述 预训练自然语言表征时,增加模型的参数量通常可以是模型在下有任务中性能提升.但是这种做法对硬件设备的要求较高(当下的各种SOTA模型动辄数亿甚至数十亿个参数,倘若要扩大模型规模,这个内存问题是无法回避的),也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比,在分布式训练中训练速度将成为一大瓶颈.简单地增加隐含层单元数,只会适得其反,从而降低效率).并且随着模型参数的增加,模型性能会先提升,后又会随着参数的增加性能反而变差. 核心方法 为了降低模型训练的系统开销,提升模型的训练效…