tf.metrics 使用过程中发现的一些问题

起因是看到了这么一个帖子：

http://www.cocoachina.com/cms/wap.php?action=article&id=86347

简短来说就是下面的代码 运行起来结果十分的怪异！！！

import tensorflow as tf

a = tf.constant(1.)

mean_a, mean_a_uop = tf.metrics.mean(a)

with tf.control_dependencies([mean_a_uop]):

  mean_a = tf.identity(mean_a)

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run(mean_a))

在CPU上运行：

第一次运行结果：

第二次运行结果：

第三次运行结果：

第四次运行结果：

第五次运行结果：

可以发现上述代码在CPU环境下运行每次结果均不太相同，而且离希望得到结果都不一样。

希望的结果为 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

在GPU上运行：

第一次结果：

第二次结果：

第三次结果：

第四次结果：

第五次结果：

可以发现上述代码在GPU环境下运行每次结果均相同，但都不是希望的结果。

希望的结果为 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0

以上则为所引帖子中所提问题。

==================================================================

由上面的问题做了写尝试：（以下测试均在GPU上执行）

import tensorflow as tf

a = tf.constant([1.0,])

mean_a, mean_a_uop = tf.metrics.mean(a)

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run([mean_a_uop, mean_a]))

print('result:--------------------')

print(sess.run(mean_a))

最终的均值 mean_a 为1.0，结果正确。

过程中 mean_a_uop 为全局更新操作，结果一直为1.0，结果正确。

过程中均值 mean_a 在浮动，不一直为1.0，结果不正确。

import tensorflow as tf

import numpy as np

a = tf.constant([1.])

mean_a, mean_a_uop = tf.metrics.mean(a)

with tf.control_dependencies([mean_a_uop]):

    op=tf.no_op()

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run([mean_a, op,mean_a_uop]))

print('result: --------------------')

print(sess.run(mean_a))

最终的均值 mean_a 为1.0，结果正确。

过程中 mean_a_uop 为全局更新操作，结果一直为1.0，结果正确。

过程中均值 mean_a 在浮动，不一直为1.0，结果不正确。

import tensorflow as tf

a = tf.constant([1.,])

mean_a, mean_a_uop = tf.metrics.mean(a)

with tf.control_dependencies([mean_a_uop]):

  mean_a2 = tf.identity(mean_a)

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run([mean_a2, mean_a, mean_a_uop]))

print('result: ---------------')

print(sess.run(mean_a))

最终的均值 mean_a 为1.0，结果正确。

过程中 mean_a_uop 为全局更新操作，结果一直为1.0，结果正确。

过程中均值 mean_a， mean_a2相等且在浮动，不一直为1.0，结果不正确。

===============================================================

根据原帖子将原始代码中的tf.constant 换成 tf.Variable，效果如何呢？

import tensorflow as tf

a = tf.Variable(tf.constant(1.))

mean_a, mean_a_uop = tf.metrics.mean(a)

with tf.control_dependencies([mean_a_uop]):

  mean_a = tf.identity(mean_a)

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run(mean_a))

CPU上运行：

第一次运行结果：

第二次运行结果：

第三次运行结果：

在GPU上运行呢？？？

第一次运行：

第二次运行：

第三次运行：

===========================================================================

综上发现如果不规范的使用 tf.metrics 会引发不可预知的后果，主要使用不当如下：（虽然如下的做法也没理由出错，但是事实却是常出错，有问题）

mean_a, mean_a_uop = tf.metrics.mean(a)

with tf.control_dependencies([mean_a_uop]):

  mean_a = tf.identity(mean_a)

for _ in range(10):
  print(sess.run(mean_a))

正确使用如下：

import tensorflow as tf

a = tf.Variable(tf.constant(1.))

mean_a, mean_a_uop = tf.metrics.mean(a)

#with tf.control_dependencies([mean_a_uop]):

#  mean_a = tf.identity(mean_a)

sess = tf.InteractiveSession()

tf.global_variables_initializer().run()

tf.local_variables_initializer().run()

for _ in range(10):

  print(sess.run(mean_a_uop))

print('result:-------------')

print(sess.run(mean_a))

CPU上运行：

GPU上运行：

解决 tf.metrics 出错问题的关键就是 不使用 依赖控制 tf.control_dependencies 。

mean_a, mean_a_uop = tf.metrics.mean   中的   均值mean_a  和  更新mean_a_uop 不在一个session执行中获得，  即

如下操作：

for _ in range(10):

  print(sess.run(mean_a_uop))

print('result:-------------')

print(sess.run(mean_a))

而且在更新过程中， mean_a_uop 的结果会一直保证正确， mean_a只有在新的session执行中才保证正确。

至于为什么会有这么个结果也是无法解释的，不过这应该是既成事实，使用过程中注意就好，还有就是依赖控制慎用 tf.control_dependencies , 不是必须使用的时候就不用。

tf.metrics 使用过程中发现的一些问题的更多相关文章

为Secure Store Service生成新密钥，解决“生成密钥过程中发现错误”的问题
我们集成TFS和SharePoint Server以后,一个最常见的需求是通过SharePoint Server的Excel Service读取TFS报表中的信息,利用Excel Service的强大 ...
常见Code Review过程中发现的问题-续
上一篇列举了一些比较常见的Code Review问题列表,文末有链接,可追溯查看.本篇为上篇的姊妹篇,继续列举一些上篇遗漏的或不易发现的问题清单,希望能整体性把一些常见的问题表述出来. 测试数据不具有 ...
调试过程中发现按f5无法走进jdk源码
debug 模式 ,在fis=new FileInputStream(file); 行打断点调试过程中发现按f5无法走进jdk源码 package com.lzl.spring.test; impo ...
Hive通过查询语句向表中插入数据过程中发现的坑
前言近期在学习使用Hive(版本号0.13.1)的过程中,发现了一些坑,它们也许是Hive提倡的比关系数据库更加自由的体现(同一时候引来一些问题).也许是一些bug.总而言之,这些都须要使用Hive ...
常见Code Review过程中发现的问题
软件环境:Spring MVC + MyBatis 主要体现在两个方面,一个是编码习惯问题,另一个是编码质量的问题.编码习惯主要有日志编写.代码注释以及编码风格的问题,而编码质量则与很多方面相关,比如 ...
在网站制作过程中发现的block和inline-block不同。
inline-block,简单来说就是在CSS中通过display:inline-block对一个对象指定inline-block属性,可以将对象呈递为内联对象,但是对象的内容作为块对象呈递.有时既希 ...
VS 2017开发ASP.NET Core Web应用过程中发现的一个重大Bug
今天试着用VS 2017去开发一个.net core项目,想着看看.net core的开发和MVC5开发有什么区别,然后从中发现了一个VS2017的Bug. 首先,我们新建项目,ASP.NET Cor ...
sqlserver2017安装及连接过程中发现的问题
1.SSMS安装报错,如下图根据搜索资料发现是防火墙的问题,关闭防火墙就行了. 2.连接用户时报错这个是因为远程连接相关问题. 首先打开服务器远程连接: 其次点击: SqlServer配置管理器- ...
vue生命周期updated的触发时机之debug过程中发现的firefox问题
现象描述: 断点位置1 谷歌debug的过程: 火狐debug的过程: 只要在改变数据之后有断点停顿,就会先去执行updated函数断点位置2 此时火狐和谷歌是一样的效果,但是执行顺序是不一致的谷 ...
Mysql: Connect/C++ 使用过程中发现返回 std::string 造成的内存泄露
在使用 Connect/C++ ,测试时发现在调用 getString 出现了内存增长的情况. ConstructOutput(); //打印出当前内存 ;i<;++i) { prepareSt ...

随机推荐

edge浏览器禁用搜索工具栏或七七八八的东西
edge浏览器禁用搜索工具栏或七七八八的东西在浏览器地址里输入: edge://flags/#edge-show-feature-recommendations 把"Show featur ...
Prometheus 聚合查询的两个方案
问题背景多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 su ...
高并发缓存中间件Redis
https://tech.meituan.com/2020/07/01/kv-squirrel-cellar.html 美团万亿级 KV 存储架构与实践阿里云 redis文档 https://hel ...
网易面试：SpringBoot如何开启虚拟线程？
虚拟线程(Virtual Thread)也称协程或纤程,是一种轻量级的线程实现,与传统的线程以及操作系统级别的线程(也称为平台线程)相比,它的创建开销更小.资源利用率更高,是 Java 并发编程领域的 ...
Spring Boot 使用拦截器实现 token 验证
Spring Boot 使用拦截器实现 token 验证整体思路:1.写一个工具类封装生成.校验和解析 token 的方法:2.在注册和登录时生成 token ,生成的 token 存入 red ...
SQL索引优化,菜单列表优化
SQL索引优化,菜单列表优化现象:在系统中几个数据量大的列表页面,首次进入页面未增加筛选条件,导致进入的列表查询速度非常慢.分析:通过SQL查看,是做了count求和查询,然后根据总的记录数来做分页 ...
idea部署运行tomcat项目方法
在导航栏点击Add Configuration-或者(打开菜单Run->Edit Configuration) 点击+号,选择Tomcat Server ->选择Local->在Na ...
记一次 .NET某机械臂上位系统卡死分析
一:背景 1. 讲故事前些天有位朋友找到我,说他们的程序会偶发性的卡死一段时间,然后又好了,让我帮忙看下怎么回事?窗体类的程序解决起来相对来说比较简单,让朋友用procdump自动抓一个卡死时的du ...
Linux下挂载NTFS格式的U盘
NTFS是Windows下的格式,在Linux下是识别不了的,要想在Linux上挂载NTFS格式的U盘需要安装软件以提供支持.软件名为ntfs-3g. 1.下载安装包 https://tuxera.c ...
图最短路径之Floyd
Floyd Warshall Algorithm 算法参考地址:Floyd Warshall Algorithm | DP-16 - GeeksforGeeks 算法的简介 Floyd 用于求解所有对 ...

tf.metrics 使用过程中发现的一些问题

tf.metrics 使用过程中发现的一些问题的更多相关文章

随机推荐

热门专题