I optimizer.minimize(loss, var_list)

我们都知道，TensorFlow为我们提供了丰富的优化函数，例如GradientDescentOptimizer。这个方法会自动根据loss计算对应variable的导数。示例如下：

loss = ...

opt = tf.tf.train.GradientDescentOptimizer(learning_rate=0.1)

train_op = opt.minimize(loss)

init = tf.initialize_all_variables()

with tf.Seesion() as sess:

    sess.run(init)

    for step in range(10):

      session.run(train_op)

首先我们看一下minimize()的源代码(为方便说明，部分参数已删除):

def minimize(self, loss, global_step=None, var_list=None, name=None):

    grads_and_vars = self.compute_gradients(loss, var_list=var_list)

    vars_with_grad = [v for g, v in grads_and_vars if g is not None]

    if not vars_with_grad:

      raise ValueError(

          "No gradients provided for any variable, check your graph for ops"

          " that do not support gradients, between variables %s and loss %s." %

          ([str(v) for _, v in grads_and_vars], loss))

    return self.apply_gradients(grads_and_vars, global_step=global_step,

                                name=name)

由源代码可以知道minimize()实际上包含了两个步骤，即compute_gradients和apply_gradients，前者用于计算梯度，后者用于使用计算得到的梯度来更新对应的variable。下面对这两个函数做具体介绍。

II computer_gradients(loss, val_list)

参数含义:

loss: 需要被优化的Tensor
val_list: Optional list or tuple of tf.Variable to update to minimize loss. Defaults to the list of variables collected in the graph under the key GraphKeys.TRAINABLE_VARIABLES.

简单说该函数就是用于计算loss对于指定val_list的导数的，最终返回的是元组列表，即[(gradient, variable),...]。

看下面的示例

x = tf.Variable(initial_value=50., dtype='float32')

w = tf.Variable(initial_value=10., dtype='float32')

y = w*x

opt = tf.train.GradientDescentOptimizer(0.1)

grad = opt.compute_gradients(y, [w,x])

with tf.Session() as sess:

    sess.run(tf.global_variables_initializer())

    print(sess.run(grad))

返回值如下:

>>> [(50.0, 10.0), (10.0, 50.0)]

可以看到返回了一个list，list中的元素是元组。第一个元组第一个元素是50，表示\(\frac{\partial{y}}{\partial{w}}\)的计算结果，第二个元素表示\(w\)。第二个元组同理不做赘述。

其中tf.gradients(loss, tf.variables)的作用和这个函数类似,但是它只会返回计算得到的梯度，而不会返回对应的variable。

with tf.Graph().as_default():

    x = tf.Variable(initial_value=3., dtype='float32')

    w = tf.Variable(initial_value=4., dtype='float32')

    y = w*x

    grads = tf.gradients(y, [w])

    print(grads)

    opt = tf.train.GradientDescentOptimizer(0.1)

    grads_vals = opt.compute_gradients(y, [w])

    print(grad_vals)

>>>

[<tf.Tensor 'gradients/mul_grad/Mul:0' shape=() dtype=float32>]

[(<tf.Tensor 'gradients_1/mul_grad/tuple/control_dependency:0' shape=() dtype=float32>, <tf.Variable 'Variable_1:0' shape=() dtype=float32_ref>)]

III apply_gradients(grads_and_vars, global_step=None, name=None)

该函数的作用是将compute_gradients()返回的值作为输入参数对variable进行更新。

那为什么minimize()会分开两个步骤呢？原因是因为在某些情况下我们需要对梯度做一定的修正，例如为了防止梯度消失(gradient vanishing)或者梯度爆炸(gradient explosion)，我们需要事先干预一下以免程序出现Nan的尴尬情况；有的时候也许我们需要给计算得到的梯度乘以一个权重或者其他乱七八糟的原因，所以才分开了两个步骤。

IV Example

下面给出一个使用tf.clip_by_norm来修正梯度的例子:

with tf.Graph().as_default():

    x = tf.Variable(initial_value=3., dtype='float32')

    w = tf.Variable(initial_value=4., dtype='float32')

    y = w*x

    opt = tf.train.GradientDescentOptimizer(0.1)

    grads_vals = opt.compute_gradients(y, [w])

    for i, (g, v) in enumerate(grads_vals):

        if g is not None:

            grads_vals[i] = (tf.clip_by_norm(g, 5), v)  # clip gradients

    train_op = opt.apply_gradients(grads_vals)

    with tf.Session() as sess:

        sess.run(tf.global_variables_initializer())

        print(sess.run(grads_vals))

        print(sess.run([x,w,y]))

>>>

[(3.0, 4.0)]

[3.0, 4.0, 12.0]

其他的tf.clip_by_*方法可参看TensorFlow学习笔记之--[tf.clip_by_global_norm,tf.clip_by_value,tf.clip_by_norm等的区别]

TensorFlow学习笔记之--[compute_gradients和apply_gradients原理浅析]的更多相关文章

tensorflow学习笔记——使用TensorFlow操作MNIST数据（1）
续集请点击我:tensorflow学习笔记——使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...
tensorflow学习笔记——自编码器及多层感知器
1,自编码器简介传统机器学习任务很大程度上依赖于好的特征工程,比如对数值型,日期时间型,种类型等特征的提取.特征工程往往是非常耗时耗力的,在图像,语音和视频中提取到有效的特征就更难了,工程师必须在这 ...
Tensorflow学习笔记No.4.1
使用CNN卷积神经网络(1) 简单介绍CNN卷积神经网络的概念和原理. 已经了解的小伙伴可以跳转到Tensorflow学习笔记No.4.2学习如和用Tensorflow实现简单的卷积神经网络. 1.C ...
Tensorflow学习笔记No.7
tf.data与自定义训练综合实例使用tf.data自定义猫狗数据集,并使用自定义训练实现猫狗数据集的分类. 1.使用tf.data创建自定义数据集我们使用kaggle上的猫狗数据以及tf.dat ...
Tensorflow学习笔记No.8
使用VGG16网络进行迁移学习使用在ImageNet数据上预训练的VGG16网络模型对猫狗数据集进行分类识别. 1.预训练网络预训练网络是一个保存好的,已经在大型数据集上训练好的卷积神经网络. 如 ...
Tensorflow学习笔记2：About Session, Graph, Operation and Tensor
简介上一篇笔记:Tensorflow学习笔记1:Get Started 我们谈到Tensorflow是基于图(Graph)的计算系统.而图的节点则是由操作(Operation)来构成的,而图的各个节 ...
Tensorflow学习笔记2019.01.22
tensorflow学习笔记2 edit by Strangewx 2019.01.04 4.1 机器学习基础 4.1.1 一般结构: 初始化模型参数:通常随机赋值,简单模型赋值0 训练数据:一般打乱 ...
Tensorflow学习笔记2019.01.03
tensorflow学习笔记: 3.2 Tensorflow中定义数据流图张量知识矩阵的一个超集. 超集:如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S ...
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识在tf第一个例子的时候需要很多预备知识. tf基本知识香农熵交叉熵代价函数cross-entropy 卷积神经网络 s ...

随机推荐

Js封装的动画函数实现轮播图
---恢复内容开始--- 效果图说明:当鼠标移到哪一个按钮上的时候会自动跳转到某一张图片上,并且按钮会以高亮显示项目目录结构用到的js封装的animate()动画 function ...
SQL Server 经典案例
1.先进先出例1 WITH [ta] ([商品编号], [批次号], [库存数量]) AS ( UNION ALL UNION ALL UNION ALL ),[tb] ([商品编号], [订货数量 ...
css3: 基本知识记录
1.transition过渡: 元素从一种样式到另一种样式添加效果: div { transition: width 2s, height 2s, transform 2s; -moz-transit ...
2017-12-15python全栈9期第二天第五节之while else的用法二当不被break打断时else内容的结果会被打印
#!/user/bin/python# -*- coding:utf-8 -*-count = 0while count <=5 : count += 1 if count == 3 : pas ...
shell关于文件操作
一.如何将一个十进制的整数用2进制表示出来? echo "obase=2;50" | bc 二.Linux下经常需要删除空白行,grep,sed,awk,tr等工具均可实现 gre ...
Yarn常用命令总结
Yarn常用命令总结 1>.查看任务列表 [root@storage101 ~]# yarn application -list :: INFO client.RMProxy: Connecti ...
springboot下整合各种配置文件
本博是在springboot下整合其他中间件,比如,mq,redis,durid,日志...等等以后遇到再更.springboot真是太便捷了,让我们赶紧涌入到springboot的怀抱吧. ap ...
Kafka技术内幕读书笔记之（一） Kafka入门
在0.10版本之前, Kafka仅仅作为一个消息系统,主要用来解决应用解耦. 异步消息 . 流量削峰等问题. 在0.10版本之后, Kafka提供了连接器与流处理的能力,它也从分布式的消息系统逐渐成为 ...
Hadoop记录-Hadoop jmx
https://cwiki.apache.org/confluence/display/EAG/Hadoop+JMX+Monitoring+and+Alerting curl http://10.11 ...
JavaScript深度克隆（递归）
今天在深度理解JQuery源码时,剖析extend时: jQuery.extend = jQuery.fn.extend = function() { //... } 感觉该方法的一部分功能与深度克隆 ...