tensorflow 运行效率 GPU memory leak 问题解决

问题描述：

　　Tensorflow 训练时运行越来越慢，重启后又变好。

　　用的是Tensorflow-GPU 1.2版本，在GPU上跑，大概就是才开始训练的时候每个batch的时间很低，然后随着训练的推进，每个batch的耗时越来越长，但是当我重启后，又一切正常了？

问题查找：

　　一开始查到的原因是batch_size 和 batch_num的问题，通过python yield 数据生成器解决，确保内存每次处理的数据确定是batch_size大小，但是发现运行效率还是不高，所以查阅google的一些资料找到如下解决办法。

问题解决：

　　因为在运行时的session里定义了tf的op导致的。这样每一次迭代都会在graph里增加新的节点，导致memory leak，程序越来越慢，最后强行退出。至于在运行时程序有没有增加节点，可以在session里定义graph.finalize()锁定graph，如果跑的时候报错就证明程序在动态添加节点导致的越来越慢。

修改前代码如下：

def one_hot(labels):

    labels_num = [strnum_convert(i) for i in labels ]

    batch_size = tf.size(labels_num)

    labels = tf.expand_dims(labels_num, 1)

    indices = tf.expand_dims(tf.range(0, batch_size, 1), 1)

    concated = tf.concat([indices, labels],1)

    onehot_labels = tf.sparse_to_dense(concated, tf.stack([batch_size, 8]), 1, 0)

    #all_hot_labels = tf.reshape(onehot_labels,(1,612))

    return onehot_labels

修改后代码如下：

def one_hot(labels):

    one_hot_label = np.array([int(i == int(labels)) for i in range(8)])   
    ... ...

    return one_hot_label

大家可以看到罪魁祸首就是就是这个tf版本的one_hot操作，修改成numpy版本完美解决运行效率问题。

思考：

方法二：

　　上面问题的原因是GPU memory leak，我们也可以用的是一种曲线救国的方法；每隔1000个batch，当速度明显变慢的时候，就reset graph,然后才重新build模型，再load之前储存的参数tf.reset_default_graph()self.build_model()；

　　方法三：

我们在用tensorflow进行数据集制作的时候，发现当我运行eval()函数的时候，程序会越跑越跑慢，eval()生成的数值没有删除，然后会越占越多内存，解决办法是使用del命令就行，一般写成。

data=Var.eval()

#save data to file

del data

tensorflow 运行效率 GPU memory leak 问题解决的更多相关文章

tomcat报错：This is very likely to create a memory leak问题解决
tomcat memory leak解决方案这种问题在开发中经常会碰到的,看看前辈的总结经验 Tomcat内存溢出的原因在生产环境中tomcat内存设置不好很容易出现内存溢出.造成内存溢出是不一 ...
大神的---解决tomcat内存溢出问题----tomcat报错：This is very likely to create a memory leak问题解决
tomcat memory leak解决方案这种问题在开发中经常会碰到的,看看前辈的总结经验 Tomcat内存溢出的原因在生产环境中tomcat内存设置不好很容易出现内存溢出.造成内存溢出是不一 ...
Reducing and Profiling GPU Memory Usage in Keras with TensorFlow Backend
keras 自适应分配显存 & 清理不用的变量释放 GPU 显存 Intro Are you running out of GPU memory when using keras or ten ...
一则JVM memory leak解决的过程
起因是我们的集群应用(3台机器)新版本测试过程中,一般的JVM内存占用都在1G左右, 但在运行了一段时间后,慢慢升到了4G, 这是一个明显不正常的现象. 定位过程: 1.先在该机器上按照步骤尝试重 ...
Setup Tensorflow with GPU on Mac OSX 10.11
Setup Tensorflow with GPU on OSX 10.11 环境描述电脑:MacBook Pro 15.6 CPU: 2.7GHz 显卡: GT 650m 系统:OSX 10.11 ...
The web application registered the JDBC driver * but failed to unregister it when the web application was stopped. To prevent a memory leak, the JDBC Driver has been forcibly unregistered.
最近使用了最新版的tomcat9,使用jdbc链接mysql数据库.关闭tomcat过程中出现警告 13-Sep-2017 22:22:54.369 WARNING [main] org.apache ...
Tensorflow检验GPU是否安装成功及使用GPU训练注意事项
1. 已经安装cuda但是tensorflow仍然使用cpu加速的问题电脑上同时安装了GPU和CPU版本的TensorFlow,本来想用下面代码测试一下GPU程序,但无奈老是没有调用GPU. imp ...
Allowing GPU memory growth
By default, TensorFlow maps nearly all of the GPU memory of all GPUs (subject to CUDA_VISIBLE_DEVICE ...
[开发技巧]·TensorFlow&Keras GPU使用技巧
[开发技巧]·TensorFlow&Keras GPU使用技巧 1.问题描述在使用TensorFlow&Keras通过GPU进行加速训练时,有时在训练一个任务的时候需要去测试结果 ...

随机推荐

【LeetCode】两数之和【优化查询过程即可】
给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标. 你可以假设每种输入只会对应一个答案.但是,你不能重复利用这个数组中同样的元 ...
Docker部署ELK 7.0.1集群之Elasticsearch安装介绍
elk介绍这里不再赘述,本系列教程多以实战干货为主,关于elk工作原理介绍,详情查看官方文档. 一.环境规划主机名 IP 角色节点名 centos01 10.10.0.10 es node-10 ...
Java开发笔记（一百三十二）Swing的表格
前面介绍了程序界面上一些简单控件的组合排列,它们用来表达相互之间联系较弱的信息倒还凑合,要是用来表达关联性较强的聚合信息就力不从心了.倘若只是简单信息的罗列,例如商品名称列表.新闻标题列表.学生姓名列 ...
链表习题（6）-链表返回倒数第k个数的位置的值
/*链表返回倒数第k个数的位置的值*/ /* 算法思想:先取得链表的长度len,之后获取len-k+1的位置元素的值 */ Elemtype Getelem_rear(LinkList L, int ...
python基础 — 循环重新输入
后续完善各种循环案例 while True: try: str_num = input('input a number:') num = float(str_num) print("你输入的 ...
19 IO流（十六）——Commons工具包，FileUtils（一）
Commons包的API:自己查吧懒得传云 Commons包的导入方法 Commons是一个java的IO开源工具,导入方法: 从apache.org下载commons包解压 copy其中的comm ...
『Go基础』第8节格式化输出
输出就是将数据信息打印到电脑屏幕上. 本节我们就来学习一下Go语言中的三种输出方式: Print().Println().Printf(). 1.Print() Print()主要的一个特点就是打印数 ...
设置session销毁时间
currentUser.getSession().setTimeout();
【SQL Server数据迁移】32位的机器：SQL Server中查询ORACLE的数据
从SQL Server中查询ORACLE中的数据,可以在SQL Server中创建到ORACLE的链接服务器来实现的,但是根据32位 .64位的机器和软件,需要用不同的驱动程序来实现. 在32位的机器 ...
jvm调优相关
查找占用cpu过高的线程,并排查原因 1.查找jvm进程 (1)jps -l (2)ps -ef|grep java 这一步骤可以得到进程号,假如进程号为9527 2.查找该jvm进程中占用cpu比较 ...

tensorflow 运行效率 GPU memory leak 问题解决

tensorflow 运行效率 GPU memory leak 问题解决的更多相关文章

随机推荐

热门专题