在集群上运行caffe程序时如何避免Out of Memory

不少同学抱怨，在集群的GPU节点上运行caffe程序时，经常出现"Out of Memory"的情况。实际上，如果我们在提交caffe程序到某个GPU节点的同时，指定该节点某个比较空闲的gpu id，便可以避免"Out of Memory"的情况。步骤如下：

1. 在提交任务前，制作一个带有“nvidia-smi”命令的run_gpu.sh文件

#!/bin/bash

#$ -V

#$ -cwd

#$ -j y

#$ -S /bin/bash

nvidia-smi

2. 提交run_gpu.sh文件到某个GPU节点（以g0502为例）

qsub -l h=g0502 run_gpu.sh

3. 查看run_gpu.sh任务的运行结果

可以看到，g0502节点有四块gpu，id分别为0, 1, 2, 3。其中0,1和3的内存几乎都已经占满了，只有2稍微空闲一些。所以，若在提交caffe程序到g0502节点上，需要指定运行caffe程序的gpu id为2。否则，提交上去的caffe程序将默认gpu id为0，导致很有可能出现"Out of Memory"的情况。

4. 在提交caffe程序的.sh文件(如caffe_train.sh)中指定gpu id。

 #!/bin/bash

 #$ -V

 #$ -cwd

 #$ -j y

 #$ -S /bin/bash

 ./build/tools/caffe train -gpu  -solver models/segnet/segnet_building_solver.prototxt

在.sh文件的第7行，"-gpu 2"的含义为显式指定gpu id为2。

5. 提交caffe_train.sh文件到g0502节点。

qsub -l h=g0502 caffe_train.sh

6. 查看caffe_train.sh.o文件

可以看到，caffe_train.sh文件指定了g0502节点中gpu id为2的gpu来运行caffe程序。这样，我们便可以在很大程度上避免在集群上运行的caffe程序出现"Out of Memory"的情况。

7. 用matcaffe测试训练好的caffemodel时指定gpu id

与训练时一样，用matcaffe测试训练好的caffemodel时，我们也可以显式指定gpu id，以避免出现“Out of Memory"的情况。与在caffe_train.sh文件中指定gpu id不一样，测试时，我们需要在.m文件中显式指定gpu id。而不是在.sh文件中指定。

caffe.set_mode_gpu();

caffe.set_device(2); % set gpu id

net = caffe.Net(model, weights,'test');

第2行，caffe.set_device(2)，显式指定gpu id为2。

8. 用pycaffe测试训练好的caffemodel时指定gpu id

与matcaffe同理，我们需要在.py文件中显式指定gpu id。

 import caffe

 #.....

 if __name__ == '__main__':

     caffe.set_mode_gpu()

     # set gpu_id

     caffe.set_device(2);

第6行，caffe.set_device(2)，显式指定gpu id为2。

至此，我们便可以通过指定集群某个节点中较为空闲的gpu id来避免出现“Out of Memory"的情况~^_^~

在集群上运行caffe程序时如何避免Out of Memory的更多相关文章

Spark优化之二：集群上运行jar程序，状态一直Accepted且不停止不报错
如果运行Spark集群时状态一直为Accepted且不停止不报错,比如像下面这样的情况: 15/06/14 11:33:33 INFO yarn.Client: Application report ...
Spark学习之在集群上运行Spark
一.简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力.好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样.也就是说 ...
MapReduce编程入门实例之WordCount：分别在Eclipse和Hadoop集群上运行
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapR ...
IntelliJ IDEA编写的spark程序在远程spark集群上运行
准备工作需要有三台主机,其中一台主机充当master,另外两台主机分别为slave01,slave02,并且要求三台主机处于同一个局域网下通过命令:ifconfig 可以查看主机的IP地址,如下图 ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
在local模式下的spark程序打包到集群上运行
一.前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...
[Spark Core] 在 Spark 集群上运行程序
0. 说明将 IDEA 下的项目导出为 Jar 包,部署到 Spark 集群上运行. 1. 打包程序 1.0 前提搭建好 Spark 集群,完成代码的编写. 1.1 修改代码 [添加内容,判断参数 ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
从认证到调度，K8s 集群上运行的小程序到底经历了什么？
导读:不知道大家有没有意识到一个现实:大部分时候,我们已经不像以前一样,通过命令行,或者可视窗口来使用一个系统了. 前言现在我们上微博.或者网购,操作的其实不是眼前这台设备,而是一个又一个集群.通常 ...

随机推荐

iOS_一个购物车的使用
这个项目是本人原创:要转载,请说明下:http://www.cnblogs.com/blogwithstudyofwyn/p/5618107.html 项目的地址:https://github.com ...
mysql 语句的索引和优化
一.基本语句优化 1.尽量避免在列上进行运算,这样会导致索引失败.例如: select * from table where DATE_FORMAT(`customer_regtime`,'%Y')& ...
phprpc的简单使用
PHPRPC 是一个轻型的.安全的.跨网际的.跨语言的.跨平台的.跨环境的.跨域的.支持复杂对象传输的.支持引用参数传递的.支持内容输出重定向的.支持分级错误处理的.支持会话的.面向服务的高性能远程过 ...
一位程序员如何修炼成CTO
几乎整个互联网行业都缺CTO,特别是一些草根背景的创业者,这个问题更加显著.从我自己的感受,身边各种朋友委托我找CTO的需求,嗯,算下来超过两位数了,光最近一个月就有3个,而且这三家都是刚拿了A轮的. ...
word 文档一次性设置多张图片大小
1.打开WORD文档,插入多张图片. 2.在word中按alt+f11组合键,进入VBA模式. 3.在左边的工程资源管理器中找到你的word文档,在其上右键/添加/模块 4.复制以下代码 Sub Ma ...
我的Markdown笔记
一片简单的Markdown笔记,共8项,基本上满足Markdown文档的编写(表格不建议用Markdown),每项上半部分是源码,下半部分是效果图片. 标题段落列表强调分割线代码连接图片 ...
Nodejs的安装及配置
1.从Nodejs官网下载安装包,进行安装,是否安装成功,可以从cmd npm去检查,出现如下界面,就表示安装成功 2.打开Webstorm进行配置,(如果安装前打开webstorm了,需要重启web ...
JavaScript中有关数字的精确计算
问题这样的: 37.5*5.5=206.08 (JS算出来是这样的一个结果,我四舍五入取两位小数) ,我先怀疑是四舍五入的问题,就直接用JS算了一个结果为:206.08499999999998 怎么会 ...
Asp.Net_Mvc_获取当前Url、Controller、Action
一.URL的获取很简单,ASP.NET通用: [1]获取完整url (协议名+域名+虚拟目录名+文件名+参数) string url=Request.Url.ToString(); [2]获取虚拟 ...
linux笔记：shell编程-文本处理命令
cut(字段提取命令,也叫列提取命令): printf(格式化输出命令): awk(awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理): sed(sed是一个很好 ...

在集群上运行caffe程序时如何避免Out of Memory

在集群上运行caffe程序时如何避免Out of Memory的更多相关文章

随机推荐

热门专题