通过阅读代码来学习,一向时最直接快速的。本章将讲解slim的第一层目录tensorflow/tensorflow/contrib/slim/python/slim的代码。

本层代码主要包括learning.py, evaluation.py, summary.py, queue.py和model_analyzer.py,分别对应模型的训练,测试,日志记录,队列管理和模型分析部分。

让巴默索泪来带你由易到难来阅读下这些代码吧。以下内容基本按照难度排序。

1. 模型分析模块 model_analyzer.py

这段代码提供了分析Tensorflow图中的运算和变量的工具。

  #To analyze the operations in a graph:

  images, labels = LoadData(...)  
  predictions = MyModel(images)

  slim.model_analyzer.analyze_ops(tf.get_default_graph(), print_info=True)

  #To analyze the model variables in a graph:

  variables = tf.model_variables()  

  slim.model_analyzer.analyze_vars(variables, print_info=False)

2. queue.py提供了队列内容管理代码

3. summaries.py 包括了生成日至纪录的辅助函数, summaries_test.py是它的一个测试,使用例子见下:

  import tensorflow as tf
  slim = tf.contrib.slim

  slim.summaries.add_histogram_summaries(slim.variables.get_model_variables())
  slim.summaries.add_scalar_summary(total_loss, 'Total Loss')
  slim.summaries.add_scalar_summary(learning_rate, 'Learning Rate')
  slim.summaries.add_histogram_summaries(my_tensors)
  slim.summaries.add_zero_fraction_summaries(my_tensors)

4.  evaluation.py一般不会使用slim的代码,故忽略。

5. 最重要的训练模型的代码在learning.py中,其中learning_test.py是一个测试例子

learning.py中包括训练模型所需的多个函数,包括操作梯度,生成一个训练操作(train_op, 一个计算loss并应用梯度的操作)以及训练的循环函数。训练循环要求用户传入train_op就可以进行优化。注意在这里训练循环使用了tf.train.Supervisor以及在它代码实现中的managed_session,这可以保证机器可以从运行失败中恢复训练。Supervisor是对负责训练程序的Coordinator,Saver和SessionManager的封装。下面是一个简单的例子:

  # Load data and create the model:

  images, labels = LoadData(...)
  predictions = MyModel(images)

  # Define the loss:
  slim.losses.log_loss(predictions, labels)
  total_loss = slim.losses.get_total_loss()

  # Define the optimizer:
  optimizer = tf.train.MomentumOptimizer(FLAGS.learning_rate, FLAGS.momentum)

  # Create the train_op
  train_op = slim.learning.create_train_op(total_loss, optimizer)

  # Run training.
  slim.learning.train(train_op, my_log_dir)

训练必须首先定义一个 train_op, 它的作用包括:(1)计算损失(2)将梯度运用于参数的更新(3)返回损失值

train_op有时还必须在训练时,执行额外的非梯度更新的操作,比如batch_norm。batch_norm在训练时需要执行一系列非梯度的更新操作。slim.learning.create_train_op允许用户同时将update_ops的列表以及梯度更新操作同时传递给函数。

  train_op = slim.learning.create_train_op(total_loss, optimizer, update_ops)  

默认情况下,slim.learning.create_train_op包括了所有在tf.GraphKeys.UPDATE_OPS集合中的更新操作。而且,slim的slim.batch_norm函数将moving mean和moving variance的更新加入了这个集合。因此,使用slim.batch_norm的用户不用考虑任务多余的步骤就能保证moving mean 和moving variance的更新会被正确的计算。如果用户需要加入额外的更新操作,可以使用下面的代码:

  # Force TF-Slim NOT to use ANY update_ops:
  train_op = slim.learning.create_train_op(
  total_loss,
  optimizer,
  update_ops=[])

  # Use an alternative set of update ops:
  train_op = slim.learning.create_train_op(
  total_loss,
  optimizer,
  update_ops=my_other_update_ops)

  # Use an alternative set of update ops in addition to the default updates:
  tf.add_to_collection(tf.GraphKeys.UPDATE_OPS, my_update0)
  tf.add_to_collection(tf.GraphKeys.UPDATE_OPS, my_update1)

  train_op = slim.learning.create_train_op(
  total_loss,
  optimizer)

  # Which is the same as:
  train_op = slim.learning.create_train_op(
  total_loss,
  optimizer,
  update_ops=tf.get_collection(tf.GraphKeys.UPDATE_OPS))

learning训练最重要的有两个函数:create_train_op以及train

(1)def create_train_op(total_loss,
                     optimizer,
                                 global_step=_USE_GLOBAL_STEP,
                                       update_ops=None,
                                       variables_to_train=None,
                                       clip_gradient_norm=0,
                                       summarize_gradients=False,
                                       gate_gradients=tf_optimizer.Optimizer.GATE_OP,
                                       aggregation_method=None,
                                       colocate_gradients_with_ops=False,
                                       gradient_multipliers=None,
                                       check_numerics=True)

clip_gradient_norm:当它大于0时,梯度被截止于这个值。

返回值时一个Tensor,它计算了梯度并返回了loss值。

(2)def train(train_op,

logdir,
train_step_fn=train_step,
train_step_kwargs=_USE_DEFAULT,
log_every_n_steps=1,
graph=None,
master='',
is_chief=True,
global_step=None,
number_of_steps=None,
init_op=_USE_DEFAULT,
init_feed_dict=None,
local_init_op=_USE_DEFAULT,
init_fn=None,
ready_op=_USE_DEFAULT,
summary_op=_USE_DEFAULT,
save_summaries_secs=600,
summary_writer=_USE_DEFAULT,
startup_delay_steps=0,
saver=None,
save_interval_secs=600,
sync_optimizer=None,
session_config=None,
trace_every_n_steps=None)

这个函数使用Tensorflow的supervisor运行了一个训练循环。当使用sync_optimizer时,梯度计算是同步进行的。否则,梯度计算是异步进行的。

参数:

log_every_n_steps:损失函数和step的打印频率

master:tensorflow master的地址

is_chief:指定是否训练是有主副本实现的,当进行多副本训练时。

sync_optimizer:   一个tf.SyncReplicasOptimizer 或它们的一个列表。如果提供了这个参数,梯度更新会是同步的,如果使用None,则更新是异步的。

Tensorflow-slim 学习笔记(二)第一层目录代码解读的更多相关文章

  1. SpringMVC学习笔记二第一个小的程序

    首先:我们要用springmvc来写一个helloworld的例子: 首先我们需要导入所需要的架包: /demo1/WebRoot/WEB-INF/lib/commons-logging-1.1.1. ...

  2. Beego 学习笔记二:第一个项目

    第一个MVC项目 1>     使用beego命令,创建一个项目 首先切换到创建项目的位置,输入bee new firstweb命令,创建成功之后会出现一个名为firstweb的文件夹 2> ...

  3. 【linux学习笔记二】常见目录的作用

  4. tensorflow学习笔记二:入门基础 好教程 可用

    http://www.cnblogs.com/denny402/p/5852083.html tensorflow学习笔记二:入门基础   TensorFlow用张量这种数据结构来表示所有的数据.用一 ...

  5. InterSystems Ensemble学习笔记(二) Ensemble创建镜像, 实现自动故障转移

    系列目录 InterSystems Ensemble学习笔记(一) Ensemble介绍及安装InterSystems Ensemble学习笔记(二) Ensemble创建镜像, 实现自动故障转移 一 ...

  6. Linux学习笔记(二) 文件管理

    了解 Linux 系统基本的文件管理命令可以帮助我们更好的使用 Linux 系统,以下介绍几个常用的文件管理命令 1.pwd pwd 是 Print Working Directory 的简写,用于显 ...

  7. amazeui学习笔记二(进阶开发4)--JavaScript规范Rules

    amazeui学习笔记二(进阶开发4)--JavaScript规范Rules 一.总结 1.注释规范总原则: As short as possible(如无必要,勿增注释):尽量提高代码本身的清晰性. ...

  8. Stealth视频教程学习笔记(第一章)

    Stealth视频教程学习笔记(第一章) 本文是对Unity官方视频教程Stealth的学习笔记.在此之前,本人整理了Stealth视频的英文字幕,并放到了优酷上.本文将分别对各个视频进行学习总结,提 ...

  9. JMX学习笔记(二)-Notification

    Notification通知,也可理解为消息,有通知,必然有发送通知的广播,JMX这里采用了一种订阅的方式,类似于观察者模式,注册一个观察者到广播里,当有通知时,广播通过调用观察者,逐一通知. 这里写 ...

随机推荐

  1. BZOJ1396: 识别子串(后缀自动机 线段树)

    题意 题目链接 Sol 后缀自动机+线段树 还是考虑通过每个前缀的后缀更新答案,首先出现次数只有一次,说明只有\(right\)集合大小为\(1\)的状态能对答案产生影响 设其结束位置为\(t\),代 ...

  2. Django基础十之Form和ModelForm组件

    一 Form介绍 我们之前在HTML页面中利用form表单向后端提交数据时,都会写一些获取用户输入的标签并且用form标签把它们包起来. 与此同时我们在好多场景下都需要对用户的输入做校验,比如校验用户 ...

  3. C# 一个方法如何返回多个值

    通常一个方法只能返回一个值,但是如果在某些时候,我们想要返回多个值,例如某个方法将一个浮点数分割成一个整数和一个小数返回.这个时候我们就要用到out关键字. using System; namespa ...

  4. android中的ellipsize

    textview中有个内容过长加省略号的属性,即ellipsize 用法如下: 在xml中 android:ellipsize = "end" 省略号在结尾 android:ell ...

  5. paypal文档

    https://blog.csdn.net/daily886/article/details/73164643?ref=myread.

  6. 关于Oracle中sys、system和Scott用户下的数据库连接问题

    system默认:manager sys默认:change_on_install 使用SQL Plus登录数据库时,system使用密码manager可直接登录. 由于为自己的密码时更改过的,所以我的 ...

  7. eclipse导入spring aop xml约束

    步骤: 1. 2. 3. 4.取  Location:中最后一个命名:spring-aop-4.2.xsd,放到Key的最后面,Key type:选择 Schema location.点击OK 5.编 ...

  8. 安装Window Server 2008的些配置

    上次安装window server2008,由于server2008需要设置很多东西,不然用起来很不爽,就说IE吧,每次随便打开一个网页都要弹出n多窗口出来叫你添加到信任域里面!太烦人了![下面有解决 ...

  9. Oracle特殊恢复原理与实战(DSI系列)

    1.深入浅出Oracle(DSI系列Ⅰ) 2.Oracle特殊恢复原理与实战(DSI系列Ⅱ) 3.Oracle SQL Tuning(DSI系列Ⅲ)即将开设 4.Oracle DB Performan ...

  10. Azure Cosmos DB 使用费用参考

    之前在学习Cosmos DB 中SQL API(DocumentDB) 的时候,也就是之前做的一些笔记,看到有使用费用的一些介绍,就有兴趣的去了解了下,做了一下简单的总结. 想了解更多或是购买使用的还 ...