一、TensorFlow中的优化器

tf.train.GradientDescentOptimizer：梯度下降算法
tf.train.AdadeltaOptimizer
tf.train.AdagradOptimizer
tf.train.MomentumOptimizer：动量梯度下降算法
tf.train.AdamOptimizer：自适应矩估计优化算法
tf.train.RMSPropOptimizer
tf.train.AdagradDAOptimizer
tf.train.FtrlOptimizer
tf.train.ProximalGradientDescentOptimizer
tf.train.ProximalAdagradOptimizertf.train.RMSProOptimizer

（1）如果数据是稀疏的，使用自适应学习方法。
（2）RMSprop，Adadelta，Adam是非常相似的优化算法，Adam的bias-correction帮助其在最后优化期间梯度变稀疏的情况下略微战胜了RMSprop。整体来讲，Adam是最好的选择。
（3）很多论文中使用vanilla SGD without momentum。SGD通常能找到最小值，但是依赖健壮的初始化，并且容易陷入鞍点。因此，如果要获得更快的收敛速度和训练更深更复杂的神经网络，需要选择自适应学习方法。

https://blog.csdn.net/winycg/article/details/79363169

二、常用的种类：

1、tf.train.Optimizer：

class tf.train.Optimizer：优化器（optimizers）类的基类。

Optimizer基类提供了计算损失梯度的方法，并将梯度应用于变量。这个类定义了在训练模型的时候添加一个操作的API。你基本上不会直接使用这个类，但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer.等等这些。

2、tf.train.GradientDescentOptimizer：梯度下降

原理：

batch GD【全部样本，速度慢】
随机GD【随机一个样本，速度快，但局部最优】
mini-batch GD 【batch个样本，常在数据量较大时使用】

训练集样本数少【≤2000】:采用batchGD

训练集样本数多：采用mini-batch GD，batch大小一般为64-512. 训练时多尝试一下2的次方来找到最合适的batch大小。

应用：

这个类是实现梯度下降算法的优化器。这个构造函数需要的一个学习率就行了。

构造函数：tf.train.GradientDescentOptimizer(0.001).minimize(loss,global_step=None,var_list=None,gate_gradients=GATE_OP,aggregation_method=None,colocate_gradients_with_ops=False,name=None,grad_loss=None)

 __init__(

     learning_rate,

     use_locking=False,

     name='GradientDescent'

 )

learning_rate: （学习率）张量或者浮点数

use_locking: 为True时锁定更新

name: 梯度下降名称，默认为"GradientDescent".

3、tf.train.AdadeltaOptimizer：

实现了 Adadelta算法的优化器，可以算是下面的Adagrad算法改进版本。

构造函数： tf.train.AdadeltaOptimizer.init(learning_rate=0.001, rho=0.95, epsilon=1e-08, use_locking=False, name=’Adadelta’)

4、tf.train.AdagradOptimizer：

构造函数：tf.train.AdagradOptimizer.__init__(learning_rate, initial_accumulator_value=0.1, use_locking=False, name=’Adagrad’)

5、tf.train.MomentumOptimizer：

原理：

momentum表示要在多大程度上保留原来的更新方向，这个值在0-1之间，在训练开始时，由于梯度可能会很大，所以初始值一般选为0.5；当梯度不那么大时，改为0.9。 α是学习率，即当前batch的梯度多大程度上影响最终更新方向，跟普通的SGD含义相同。

应用：

构造函数：tf.train.MomentumOptimizer.__init__(learning_rate, momentum, use_locking=False, name=’Momentum’, use_nesterov=False)

 __init__(

     learning_rate,

     momentum,

     use_locking=False,

     name='Momentum',

     use_nesterov=False

 )

learning_rate: （学习率）张量或者浮点数

momentum: （动量）张量或者浮点数

use_locking: 为True时锁定更新

name: 梯度下降名称，默认为 "Momentum".

use_nesterov: 为True时，使用 Nesterov Momentum.

6、tf.train.RMSPropOptimizer

目的和动量梯度一样，减小垂直方向，增大水平方向。W为水平方向，b为垂直方向。

7、tf.train.AdamOptimizer：动量和RMSProp结合

应用：

 __init__(

     learning_rate=0.001,

     beta1=0.9,

     beta2=0.999,

     epsilon=1e-08,

     use_locking=False,

     name='Adam'

 )

构造函数：tf.train.AdamOptimizer.__init__(learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-08, use_locking=False, name=’Adam’)

learning_rate: （学习率）张量或者浮点数，需要调试

beta1: 浮点数或者常量张量，表示 The exponential decay rate for the 1st moment estimates.【推荐使用0.9】

beta2: 浮点数或者常量张量，表示 The exponential decay rate for the 2nd moment estimates.【推荐使用0.999】

epsilon: A small constant for numerical stability. This epsilon is "epsilon hat" in the Kingma and Ba paper (in the formula just before Section 2.1), not the epsilon in Algorithm 1 of the paper.

use_locking: 为True时锁定更新

name: 梯度下降名称，默认为 "Adam".

莫烦大大TensorFlow学习笔记（8）----优化器的更多相关文章

莫烦大大TensorFlow学习笔记（9）----可视化
一.Matplotlib[结果可视化] #import os #os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' import tensorflow as tf i ...
莫烦python教程学习笔记——总结篇
一.机器学习算法分类: 监督学习:提供数据和数据分类标签.--分类.回归非监督学习:只提供数据,不提供标签. 半监督学习强化学习:尝试各种手段,自己去适应环境和规则.总结经验利用反馈,不断提高算法 ...
莫烦python教程学习笔记——保存模型、加载模型的两种方法
# View more python tutorials on my Youtube and Youku channel!!! # Youtube video tutorial: https://ww ...
莫烦python教程学习笔记——validation_curve用于调参
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: ht ...
莫烦python教程学习笔记——learn_curve曲线用于过拟合问题
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: ht ...
莫烦python教程学习笔记——利用交叉验证计算模型得分、选择模型参数
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: ht ...
莫烦python教程学习笔记——数据预处理之normalization
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: ht ...
莫烦python教程学习笔记——线性回归模型的属性
#调用查看线性回归的几个属性 # Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTTpcg # ...
莫烦python教程学习笔记——使用波士顿数据集、生成用于回归的数据集
# View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: ht ...

随机推荐

【习题 4-3 UVA - 220】Othello
[链接] 我是链接,点我呀:) [题意] [题解] legal被我打成leagal... 然后注意输出坐标的时候,格式是%2d.. 然后就没啥难的了.. [代码] #include <bits/ ...
HDU - 2973 - YAPTCHA
先上题目: YAPTCHA Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...
HDU 3987 && DINIC
很容易发现是网络流的题目,但最少边怎么求呢?初时想不到,但画图后忽然发现可以这样: 求一次网络流最小割后,把满流的边置1,不满流的置INF.再求一次最大流即可. 为什么呢? 是否会存在一些边当前不满流 ...
动态内存管理---new&delete
动态内存管理动态对象(堆对象)是程序在执行过程中在动态内存中用new运算符创建的对象. 因为是用户自己用new运算符创建的.因此也要求用户自己用delete运算符释放,即用户必须自己管理动态内存. ...
赵雅智_ListView_SimpleAdapter
项目步骤声明listView控件并获取显示的视图获取显示的数据设置显示的adapter 注冊点击事件详细案例实现效果: 查找的方法 public List<Map<String, ...
C语言播放声音最简单的两种方法
1. 假设仅须要播放波形文件wav格式的声音,非常easy.仅仅需一句话: PlaySound(TEXT("Data\\1.wav"), NULL, SND_FILENAME | ...
SQL SERVER的浮点数类型及与C#的对应关系
SQL SERVER: float 与 real 7位数或15位数.这里说的位数,不是指小数位,而是包括整数和小数在内的位数. float的位数是多少,要看float[(n)]里的n数值是多少. n ...
错误： su: 无法设置组: 不允许的操作
到 /bin目录下,用ls -l 看下su文件的权限是不是rwxr-xr-x或者-rwxrwxrwx 执行这条命令chmod ug+s su
Shell case esac语句【转】
本文转载自:http://c.biancheng.net/cpp/view/7006.html C语言中文网推出辅导班啦,包括「C语言辅导班.C++辅导班.算法/数据结构辅导班」,全部都是一对一教学: ...
poj--2236--棋盘问题（dfs）
棋盘问题 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 31183 Accepted: 15469 Descriptio ...

莫烦大大TensorFlow学习笔记（8）----优化器