原文地址：https://blog.csdn.net/mrr1ght/article/details/81006343。本文有删减。

MonitoredTrainingSession定义

首先，tf.train.MonitorSession()从单词的字面意思理解是用于监控训练的回话，返回值是tf.train.MonitorSession()类的一个实例Object, tf.train.MonitorSession()会在下面讲。

MonitoredTrainingSession(

    master='',

    is_chief=True,

    checkpoint_dir=None,

    scaffold=None,

    hooks=None,

    chief_only_hooks=None,

    save_checkpoint_secs=600,

    save_summaries_steps=USE_DEFAULT,

    save_summaries_secs=USE_DEFAULT,

    config=None,

    stop_grace_period_secs=120,

    log_step_count_steps=100

Args:

is_chief：用于分布式系统中，用于判断该系统是否是chief，如果为True，它将负责初始化并恢复底层TensorFlow会话。如果为False，它将等待chief初始化或恢复TensorFlow会话。
checkpoint_dir：一个字符串。指定一个用于恢复变量的checkpoint文件路径。

- scaffold：用于收集或建立支持性操作的脚手架。如果未指定，则会创建默认一个默认的scaffold。它用于完成图表

- hooks：SessionRunHook对象的可选列表。可自己定义SessionRunHook对象，也可用已经预定义好的SessionRunHook对象，如：tf.train.StopAtStepHook()设置停止训练的条件；tf.train.NanTensorHook(loss):如果loss的值为Nan则停止训练；

- chief_only_hooks：SessionRunHook对象列表。如果is_chief== True，则激活这些挂钩，否则忽略。

- save_checkpoint_secs：用默认的checkpoint saver保存checkpoint的频率（以秒为单位）。如果save_checkpoint_secs设置为None，不保存checkpoint。
save_summaries_steps：使用默认summaries saver将摘要写入磁盘的频率（以全局步数表示）。如果save_summaries_steps和save_summaries_secs都设置为None，则不使用默认的summaries saver保存summaries。默认为100
save_summaries_secs：使用默认summaries saver将摘要写入磁盘的频率（以秒为单位）。如果save_summaries_steps和save_summaries_secs都设置为None，则不使用默认的摘要保存。默认未启用。
config：用于配置会话的tf.ConfigProtoproto的实例。它是tf.Session的构造函数的config参数。

- stop_grace_period_secs：调用close（）后线程停止的秒数。

- log_step_count_steps：记录全局步/秒的全局步数的频率

Returns: 一个·MonitoredSession（·）实例。

tf.train.MonitoredSession()使用示例

saver_hook = CheckpointSaverHook(...)

summary_hook = SummarySaverHook(...)

with MonitoredSession(session_creator=ChiefSessionCreator(...),

                      hooks=[saver_hook, summary_hook]) as sess:

    while not sess.should_stop():

        sess.run(train_op)

Args:

session_creator:制定用于创建回话的ChiefSessionCreator
hooks:tf.train.SessionRunHook()实例的列表

Returns: 一个MonitoredSession 实例。

初始化：在创建一个MonitoredSession时，会按顺序执行以下操作：
- 调用[Hooks]列表中每一个Hook的begin()函数
- 通过scaffold.finalize()完成图graph的定义
- 创建会话
- 用Scaffold提供的初始化操作(op)来初始化模型
- 如果给定checkpoint_dir中存在checkpoint文件，则用checkpoint恢复变量
- 启动队列线程
- 调用hook.after_create_session()
Run:当调用run()函数时，按顺序执行以下操作
- 调用hook.before_run()
- 用合并后的fetches 和feed_dict调用TensorFlow的session.run() （这里是真正调用tf.Session().run(fetches ,feed_dict)）
- 调用hook.after_run()
- 返回用户需要的session.run()的结果
- 如果发生了AbortedError或者UnavailableError，则在再次执行run()之前恢复或者重新初始化会话
Exit:当调用close()退出时，按顺序执行下列操作
- 调用hook.end()
- 关闭队列线程queuerunners和会话session
- 在monitored_session的上下文中，抑制由于处理完所有输入抛出的OutOf Range错误。

【转】tf.train.MonitoredTrainingSession()解析的更多相关文章

Tensorflow滑动平均模型tf.train.ExponentialMovingAverage解析
觉得有用的话,欢迎一起讨论相互学习~Follow Me 移动平均法相关知识移动平均法又称滑动平均法.滑动平均模型法(Moving average,MA) 什么是移动平均法移动平均法是用一组最近的实 ...
tf.train.shuffle_batch函数解析
tf.train.shuffle_batch (tensor_list, batch_size, capacity, min_after_dequeue, num_threads=1, seed=No ...
深度学习原理与框架-Tfrecord数据集的读取与训练(代码) 1.tf.train.batch(获取batch图片) 2.tf.image.resize_image_with_crop_or_pad(图片压缩) 3.tf.train.per_image_stand..(图片标准化) 4.tf.train.string_input_producer(字符串入队列) 5.tf.TFRecord(读
1.tf.train.batch(image, batch_size=batch_size, num_threads=1) # 获取一个batch的数据参数说明:image表示输入图片,batch_ ...
tf.train.ExponentialMovingAverage
这个函数可以参考吴恩达deeplearning.ai中的指数加权平均. 和指数加权平均不一样的是,tensorflow中提供的这个函数,能够让decay_rate随着step的变化而变化.(在训练初期 ...
图融合之加载子图：Tensorflow.contrib.slim与tf.train.Saver之坑
import tensorflow as tf import tensorflow.contrib.slim as slim import rawpy import numpy as np impor ...
深度学习原理与框架-图像补全(原理与代码) 1.tf.nn.moments(求平均值和标准差) 2.tf.control_dependencies(先执行内部操作) 3.tf.cond(判别执行前或后函数) 4.tf.nn.atrous_conv2d 5.tf.nn.conv2d_transpose(反卷积) 7.tf.train.get_checkpoint_state(判断sess是否存在
1. tf.nn.moments(x, axes=[0, 1, 2]) # 对前三个维度求平均值和标准差,结果为最后一个维度,即对每个feature_map求平均值和标准差参数说明:x为输入的fe ...
深度学习原理与框架-Tfrecord数据集的制作 1.tf.train.Examples(数据转换为二进制) 3.tf.image.encode_jpeg(解码图片加码成jpeg) 4.tf.train.Coordinator(构建多线程通道) 5.threading.Thread(建立单线程) 6.tf.python_io.TFR(TFR读入器)
1. 配套使用: tf.train.Examples将数据转换为二进制,提升IO效率和方便管理对于int类型 : tf.train.Examples(features=tf.train.Featur ...
深度学习原理与框架-猫狗图像识别-卷积神经网络(代码) 1.cv2.resize(图片压缩) 2..get_shape()[1:4].num_elements(获得最后三维度之和) 3.saver.save(训练参数的保存) 4.tf.train.import_meta_graph(加载模型结构) 5.saver.restore(训练参数载入)
1.cv2.resize(image, (image_size, image_size), 0, 0, cv2.INTER_LINEAR) 参数说明:image表示输入图片,image_size表示变 ...
机器学习与Tensorflow（7）——tf.train.Saver()、inception-v3的应用
1. tf.train.Saver() tf.train.Saver()是一个类,提供了变量.模型(也称图Graph)的保存和恢复模型方法. TensorFlow是通过构造Graph的方式进行深度学习 ...

随机推荐

java基础面向对象 & 接口 & 抽象类
从语法层面而言,接口和抽象类的区别如下: 1.抽象类可以提供成员方法的实现细节,而接口中只能存在抽象方法(默认 public abstract)2.抽象类中的成员变量可以是多种类型,而接口中的成员变量 ...
List中的ArrayList和LinkedList源码分析
List是在面试中经常会问的一点,在我们面试中知道的仅仅是List是单列集合Collection下的一个实现类, List的实现接口又有几个,一个是ArrayList,还有一个是LinkedLis ...
提取文件中的每一个mask，并将mask命名为文件名字
import cv2 as cv import random import glob import os from PIL import Image import shutil def get_sam ...
elasticsearch 官方监控文档老版但很有用
https://zhaoyanblog.com/page/1?s=elasticsearch 监控每个节点(jvm部分) 操作系统和进程部分操作系统和进程部分的含义是很清楚的,这里不会描述的很详细. ...
A Philosophy of Software Design
关于复杂性,尚无统一的定义,从不同的角度可以给出不同的答案.可以用数量来度量,比如芯片集成的电子器件越多越复杂(不一定对):按层次性[2]度量,复杂度在于层次的递归性和不可分解性.在信息论中,使用熵来 ...
2、word插入目录、图/表
一.word插入目录依次对每个标题在“段落”中进行大纲级别选择. 光标定位于目录生成的页面,再“引用”->“目录”->选择“自动目录1/2”,则可自动生成目录.若目录有所更改,则可选择“ ...
【LeetCode】在排序数组中查找元素的第一个和最后一个位置【三次二分】
给定一个按照升序排列的整数数组 nums,和一个目标值 target.找出给定目标值在数组中的开始位置和结束位置. 你的算法时间复杂度必须是 O(log n) 级别. 如果数组中不存在目标值,返回 [ ...
第十五节：Asp.Net Core中的各种过滤器(授权、资源、操作、结果、异常)
一. 简介 1. 说明提到过滤器,通常是指请求处理管道中特定阶段之前或之后的代码,可以处理:授权.响应缓存(对请求管道进行短路,以便返回缓存的响应). 防盗链.本地化国际化等,过滤器用于横向处理业务 ...
Flink 源码解析 —— 如何获取 StreamGraph？
StreamGraph https://t.zsxq.com/qRFIm6I 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac 上搭 ...
Delphi BusinessSkinForm使用说明
1.先放bsBusinessSkinForm.bsSkinData.bsStoredSkin各一个到窗体上 2.修改bsBusinessSkinForm的SkinData属性为bsSkinData1 ...

【转】tf.train.MonitoredTrainingSession()解析

MonitoredTrainingSession定义

tf.train.MonitoredSession()使用示例

【转】tf.train.MonitoredTrainingSession()解析的更多相关文章

随机推荐

热门专题