【解决】ValueError: Memory growth cannot differ between GPU devices

在ubuntu系统下双显卡运行TensorFlow代码报错：

ValueError: Memory growth cannot differ between GPU devices

报错的代码位置为： tf.config.experimental.set_memory_growth(physical_devices[0], True)

全部代码：

import os

import tensorflow as tf

from tensorflow.keras.applications import resnet50

physical_devices = tf.config.list_physical_devices('GPU')

print(physical_devices)

tf.config.experimental.set_memory_growth(physical_devices[0], True)

#加载预训练模型

model = resnet50.ResNet50(weights='imagenet')

#save_model方式保存模型

tf.saved_model.save(model, "resnet/1/")

报错：

===============================================

查了网上的各种说法，有的说是TensorFlow的版本问题，有的说是TensorFlow的bug问题，有的说的gpu的版本问题（只有rtx2070和rtx2080的双显卡才会报错）

于是我就换了在服务器上运行，服务器为4卡泰坦，运行结果与上面的相同。

通过这样的对比实验我们可以得出结论，那就是这个并不是TensorFlow版本问题或是显卡版本问题，而是对于多显卡的运行模式下上面的写法并不是很正确，这本身就是TensorFlow的预先设定。

=====================================================

如果代码修改下就可以不报错，也就是添加内容：os.environ['CUDA_VISIBLE_DEVICES']='0'

import os

import tensorflow as tf

from tensorflow.keras.applications import resnet50

os.environ['CUDA_VISIBLE_DEVICES']='0'

physical_devices = tf.config.list_physical_devices('GPU')

print(physical_devices)

tf.config.experimental.set_memory_growth(physical_devices[0], True)

#加载预训练模型

model = resnet50.ResNet50(weights='imagenet')

#save_model方式保存模型

tf.saved_model.save(model, "resnet/1/")

运行正常不报错：

如果修改成下面这样，依然报同样的错误。

import os

import tensorflow as tf

from tensorflow.keras.applications import resnet50

#os.environ['CUDA_VISIBLE_DEVICES']='0'

physical_devices = tf.config.list_physical_devices('GPU')

print(physical_devices)

#os.environ['CUDA_VISIBLE_DEVICES']='0'

tf.config.experimental.set_memory_growth(physical_devices[0], True)

#加载预训练模型

model = resnet50.ResNet50(weights='imagenet')

#save_model方式保存模型

tf.saved_model.save(model, "resnet/1/")

回过头我们再仔细研究下报错的信息：

其实之所以报错就是因为主机有多块显卡，我们默认进行计算的时候是使用所有的显卡的，但是我们设置set_memory_growth时只为了部分显卡做设定，这样就造成了所要调用的显卡中部分显卡为set_memory_growth模式而部分不是，这样就造成了显卡与显卡之间的模式不已配的问题，因此也就报错了：

ValueError: Memory growth cannot differ between GPU devices

解决这个问题也是简单只要我们把所有用到的显卡模式设置为统一，如果设置set_memory_growth模式就为所有显卡都进行设定，也或者我们指定只使用部分显卡然后对这部分指定的显卡设置set_memory_growth模式。而设定只使用部分显卡的写法为：

os.environ['CUDA_VISIBLE_DEVICES']='0'

os.environ['CUDA_VISIBLE_DEVICES']='0,1'

而且需要知道一点，那就是os.environ['CUDA_VISIBLE_DEVICES']='0'这样的设置必须在调用TensorFlow框架之前声明否则不生效，这样同样会报错，就像上面的对比实验一样。

如下面：

为了方便我们可以直接把os.environ['CUDA_VISIBLE_DEVICES']='0'写在文件的最前面。

===============================================

如果我们想使用多块显卡进行计算，并且想使用set_memory_growth设置，那么我们就需要对这些显卡都进行set_memory_growth模式设置，具体如下代码：

import os

import tensorflow as tf

from tensorflow.keras.applications import resnet50

os.environ['CUDA_VISIBLE_DEVICES']='0,1'

physical_devices = tf.config.list_physical_devices('GPU')

print(physical_devices)

tf.config.experimental.set_memory_growth(physical_devices[0], True)

tf.config.experimental.set_memory_growth(physical_devices[1], True)

#加载预训练模型

model = resnet50.ResNet50(weights='imagenet')

#save_model方式保存模型

tf.saved_model.save(model, "resnet/1/")

关键的设置为：

==================================================

【解决】ValueError: Memory growth cannot differ between GPU devices的更多相关文章

Allowing GPU memory growth
By default, TensorFlow maps nearly all of the GPU memory of all GPUs (subject to CUDA_VISIBLE_DEVICE ...
【转】简单内存泄漏检测方法解决 Detected memory leaks! 问题
我的环境是: XP SP2 . VS2003 最近在一个项目中,程序退出后都出现内存泄漏: Detected memory leaks! Dumping objects -> {98500} n ...
_CrtSetBreakAlloc简单内存泄漏检测方法，解决Detected memory leaks!问题
我的环境是: XP SP2 . VS2003 最近在一个项目中,程序退出后都出现内存泄漏: Detected memory leaks! Dumping objects -> {98500} n ...
【Visual Studio】简单内存泄漏检测方法解决 Detected memory leaks! 问题（转）
原文转自 http://blog.csdn.net/u011430225/article/details/47840647 我的环境是: XP SP2.VS2003 最近在一个项目中, 程序退出后都出 ...
[已解决]ValueError: row index was 65536, not allowed by .xls format
报错: ValueError: row index was 65536, not allowed by .xls format 解决方案: xlrd和xlwt处理的是xls文件,单个sheet最大行数 ...
吴裕雄--天生自然TensorFlow高层封装：解决ValueError: Invalid backend. Missing required entry : placeholder
找到对应的keras配置文件keras.json 将里面的内容修改为以下就可以了
cmd 【已解决】windows连接手机，运行adb devices提示“unauthorized”
报错截图如下: 问题原因:电脑连接手机.手机未授权解决方式: 设置----开发者选项-----打开USB调试,出现如下弹框,点击"确定"即可解决问题.
Tensorflow2对GPU内存的分配策略
一.问题源起从以下的异常堆栈可以看到是BLAS程序集初始化失败,可以看到是执行MatMul的时候发生的异常,基本可以断定可能数据集太大导致memory不够用了. 2021-08-10 16:38:0 ...
解决TensorFlow程序无限制占用GPU
今天遇到一个奇怪的现象,使用tensorflow-gpu的时候,出现内存超额~~如果我训练什么大型数据也就算了,关键我就写了一个y=W*x.......显示如下图所示: 程序如下: import te ...
【Udacity并行计算课程笔记】- Lesson 3 Fundamental GPU Algorithms (Reduce, Scan, Histogram)
本周主要内容如下: 如何分析GPU算法的速度和效率 3个新的基本算法:归约.扫描和直方图(Reduce.Scan.Histogram) 一.评估标准首先介绍用于评估GPU计算的两个标准: ste ...

随机推荐

Vue学习：4.v-model使用
第一节算是对v-model的粗略了解,仅仅是将input的输入与Vue 实例的数据之间双向绑定.这一节将更详细的了解v-model在不同表单元素中的使用. v-model实例:找对象实现功能: 使用 ...
如何基于R包做GO分析？实现秒出图
GO分析基因本体论(Gene Ontology, GO)是一个用于描述基因和基因产品属性的标准术语体系.它提供了一个有组织的方式来表示基因在生物体内的各种角色.基因本体论通常从三个层面对基因进行描述 ...
判断是否有数据的sql优化
根据某一条件从数据库表中查询『有』与『没有』,只有两种状态,那为什么在写SQL的时候,还要SELECT count(*)呢? 多次REVIEW代码时,发现如现现象: 业务代码中,需要根据一个或多个条 ...
常用的jvm一些监控命令
一.jmap 查看堆内对象示例的统计信息 jmap -heap pid 描述:查看堆信息 jmap -histo:live pid | head -30 描述:显示堆中对象的统计信息命令:jmap ...
spring与设计模式之一工厂模式
大家都说要多阅读spring的代码,这非常在理,毕竟spring的代码是许许多多杰出工程师的结晶,是业界多年的累积. 最近也不是非常忙,所以准备记录一系列的相关代码. 工厂模式是所有人都会的模式,是最 ...
安卓内核编译：关闭"error, forbidden warning"
安卓内核编译:关闭error, forbidden warning 背景最近在编译Android kernel时,遇到error, forbidden warning, 导致编译中断,大大降低了de ...
LangGraph实战
1.概述前段时间LangChain发布了LangGraph,它引起了很多关注.LangGraph 的主要优势在于它能够实现循环工作流,这对于在 LLM 应用程序中模拟类似代理的行为至关重要.本篇博客 ...
python基础-json
import json # 准备列表,列表内每一个元素都是字典,将其转为JSON date = [{"name": "张大帅", "age" ...
【创龙全国产T3核心板】赋能工业领域新发展
在工业5.0时代浪潮持续推进并具备确定性的时代背景下,工业领域创新升级的需求日益增长,为满足各种工业环境下的应用需求,面向工业领域,创龙科技推出了基于全志T3处理器的元器件全国产化工业级核心板--SO ...
虚拟 DOM 实现原理？
虚拟 DOM 的实现原理主要包括以下 3 部分: 用 JavaScript 对象模拟真实 DOM 树,对真实 DOM 进行抽象: diff 算法 - 比较两棵虚拟 DOM 树的差异: pach 算法 ...

【解决】ValueError: Memory growth cannot differ between GPU devices

【解决】ValueError: Memory growth cannot differ between GPU devices的更多相关文章

随机推荐

热门专题