TensorFlow的梯度裁剪

在较深的网络，如多层CNN或者非常长的RNN，由于求导的链式法则，有可能会出现梯度消失（Gradient Vanishing）或梯度爆炸（Gradient Exploding ）的问题。

原理

问题：为什么梯度爆炸会造成训练时不稳定而且不收敛？
梯度爆炸，其实就是偏导数很大的意思。回想我们使用梯度下降方法更新参数：

损失函数的值沿着梯度的方向呈下降趋势，然而，如果梯度（偏导数）很大话，就会出现函数值跳来跳去，收敛不到最值的情况，如图：

当然出现这种情况，其中一种解决方法是，将学习率αα设小一点，如0.0001。

这里介绍梯度裁剪（Gradient Clipping）的方法，对梯度进行裁剪，论文提出对梯度的L2范数进行裁剪，也就是所有参数偏导数的平方和再开方。

TensorFlow代码

方法一：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)

grads = optimizer.compute_gradients(loss)

for i, (g, v) in enumerate(grads):

    if g is not None:

        grads[i] = (tf.clip_by_norm(g, 5), v)  # 阈值这里设为5

train_op = optimizer.apply_gradients(grads)

其中
optimizer.compute_gradients()返回的是正常计算的梯度，是一个包含(gradient, variable)的列表。

tf.clip_by_norm(t, clip_norm)返回裁剪过的梯度，维度跟t一样。

不过这里需要注意的是，这里范数的计算不是根据全局的梯度，而是一部分的。

方法二：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)

grads, variables = zip(*optimizer.compute_gradients(loss))

grads, global_norm = tf.clip_by_global_norm(grads, 5)

train_op = optimizer.apply_gradients(zip(grads, variables))

这里是计算全局范数，这才是标准的。不过缺点就是会慢一点，因为需要全部梯度计算完之后才能进行裁剪。

总结

当你训练模型出现Loss值出现跳动，一直不收敛时，除了设小学习率之外，梯度裁剪也是一个好方法。

然而这也说明，如果你的模型稳定而且会收敛，但是效果不佳时，那这就跟学习率和梯度爆炸没啥关系了。因此，学习率的设定和梯度裁剪的阈值并不能提高模型的准确率。

TensorFlow的梯度裁剪的更多相关文章

tensorflow 梯度裁剪
gvs = optimizer.compute_gradients(loss) # 计算出梯度和变量值 capped_gvs = [(tf.clip_by_value(grad, -5e+10, 5e ...
pytorch梯度裁剪（Clipping Gradient）：torch.nn.utils.clip_grad_norm
torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2) 1.梯度裁剪原理(http://blog.csdn.net/qq_29 ...
梯度裁剪（Clipping Gradient）：torch.nn.utils.clip_grad_norm
torch.nn.utils.clip_grad_norm_(parameters, max_norm, norm_type=2) 1.(引用:[深度学习]RNN中梯度消失的解决方案(LSTM) ) ...
ptorch常用代码梯度篇（梯度裁剪、梯度累积、冻结预训练层等）
梯度裁剪(Gradient Clipping) 在训练比较深或者循环神经网络模型的过程中,我们有可能发生梯度爆炸的情况,这样会导致我们模型训练无法收敛. 我们可以采取一个简单的策略来避免梯度的爆炸,那 ...
『TensorFlow』梯度优化相关
tf.trainable_variables可以得到整个模型中所有trainable=True的Variable,也是自由处理梯度的基础基础梯度操作方法: tf.gradients 用来计算导数.该 ...
TensorFlow实现梯度下降
# -*- coding: utf-8 -*- """ Created on Mon Oct 15 17:38:39 2018 @author: zhen "& ...
tensorflow随机梯度下降算法使用滑动平均模型
在采用随机梯度下降算法训练神经网络时,使用滑动平均模型可以提高最终模型在测试集数据上的表现.在Tensflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模 ...
实现属于自己的TensorFlow(二) - 梯度计算与反向传播
前言上一篇中介绍了计算图以及前向传播的实现,本文中将主要介绍对于模型优化非常重要的反向传播算法以及反向传播算法中梯度计算的实现.因为在计算梯度的时候需要涉及到矩阵梯度的计算,本文针对几种常用操作的梯 ...
TensorFlow使用记录 (八）：梯度修剪和 Max-Norm Regularization
梯度修剪梯度修剪主要避免训练梯度爆炸的问题,一般来说使用了 Batch Normalization 就不必要使用梯度修剪了,但还是有必要理解下实现的 In TensorFlow, the optim ...

随机推荐

中国移动物联网平台数据转发 c# 控制台程序
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.N ...
20155326 2006-2007-2 《Java程序设计》第4周学习总结
20155326 2006-2007-2 <Java程序设计>第4周学习总结教材学习内容总结继承共同行为 (1)继承基本上就是避免多个类间重复定义共同行为,关键词为extends. ( ...
POJ1468 Sorting Slides
Sorting Slides Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 4442 Accepted: 1757 De ...
Java Map释放内存置null以及调用clear()的区别
今天自己在总结map的时候,想到了在释放Map对象空间的时候就有使用过将Map对象置null,也有时候会调用clear()将Map中的数据清除,那么它们都有什么区别呢? Map<Integer, ...
Java 是值传递
本质:传值/传地址值以下搬运自知乎大佬作者:Intopass链接:https://www.zhihu.com/question/31203609/answer/50992895来源:知乎著 ...
java数据库编程(未整理完，待续)
java使用数据库可以借助jdbc这个中间媒介.本文将介绍如何使用jdbc连接数据库,数据库的基本操作和jdbc的事物处理. 1 连接数据库一般java连接数据库,都有几个步骤: 0.导入相应的驱动 ...
计算日期差（Python实现）
class Solution: def Days(self,year,month,day): if (year%4==0 and year%100!=0) or year%400==0: monthl ...
iOS AppIcon尺寸
如果提交的ipa包中,未包含必要的Icon就会收到类似的通知,为什么偏偏是Icon-76呢? 因为我们开发的游戏,默认是支持iphone以及ipad的,根据官方提供的参考 Icon-76.png是必须 ...
XAMPP配置基于虚拟目录、多域名的环境
打开Apache 2.x 配置文件 http.conf 搜索Include etc/extra/httpd-vhosts.conf,然后去掉前面的#号再编辑extra/httpd-vhosts. ...
PCA in MLLib
SVD分解: \(A=U\Sigma V^T\),变换:\(\hat{A}=A\cdot V=U\Sigma\) 分解时先计算\(A^TA=U\Sigma^2U^T\),再进行SVD分解 /** * ...

TensorFlow的梯度裁剪

原理

TensorFlow代码

总结

TensorFlow的梯度裁剪的更多相关文章

随机推荐

热门专题