转载自: https://blog.csdn.net/qq_25737169/article/details/78847691 前言 本文主要深入介绍深度学习中的梯度消失和梯度爆炸的问题以及解决方案.本文分为三部分,第一部分主要直观的介绍深度学习中为什么使用梯度更新,第二部分主要介绍深度学习中梯度消失及爆炸的原因,第三部分对提出梯度消失及爆炸的解决方案.有基础的同鞋可以跳着阅读. 其中,梯度消失爆炸的解决方案主要包括以下几个部分. - 预训练加微调 - 梯度剪切.权重正则(针对梯度爆炸) - 使…