问题描述:我有一个程序(app),需要用到显卡来跑。原本的部署方式 是直接修改程序的配置文件来指定要用到的显卡。

这是我服务器的显卡信息:总共3卡 分别是 0卡 ,1卡和2卡。

[root@k8s-rancher1 etc]# nvidia-smi
Sat Sep 4 12:50:17 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.84 Driver Version: 460.84 CUDA Version: 11.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce GTX 1070 Off | 00000000:02:00.0 Off | N/A |
| 21% 37C P0 37W / 180W | 0MiB / 8119MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 1070 Off | 00000000:03:00.0 Off | N/A |
| 24% 46C P5 13W / 180W | 0MiB / 8119MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 2 GeForce GTX 1070 Off | 00000000:04:00.0 Off | N/A |
| 24% 48C P5 16W / 180W | 0MiB / 8119MiB | 2% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+

这是程序的配置文件a.conf修改显卡使用的地方:注意这里我启用了0卡和1卡

原始的程序启动命令 ./app -c ./a.conf。程序启动后执行nvidia-smi,观察到0卡和1卡都已经被占用,我就不贴图了。

我想做的是直接在docker指定要启用的显卡,摆脱配置文件,这样在后续封装pyhon-docker接口的时候就不用再动态的修改配置文件然后再挂载进容器内。

现在,我把程序打包成镜像文件,下面是我容器启动命令:

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021 -v /root/a.conf:/root/a.conf  --gpus all 192.168.9.102:2021/example/app:latest

这里我用 --gpus all 使用全部显卡(总共3卡),容器启动后会根据挂载的a.conf来选定要使用的卡,也就是0卡和1卡会被占用,2卡会空闲起来。这并没有问题,我们可以这么理解为,docker run 显卡指定all的时候,程序会根据自身的配置文件来启用对应的显卡。

那么,问题来了,如果我在docker run 指定要用的一个或多个显卡,那么容器启动时,显卡占用情况是怎么样的呢?

实验1:

  1. a.conf 配置0卡和1卡

2. docker run 指定显卡为2卡

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=2"' 192.168.9.102:2021/example/app:latest

结果:

结果程序启用的是2卡,也就是说可以不可以理解为docker run 指定显卡和配置文件不一致时,会以docker分配的显卡为主。

实验2:

  1. a.conf 配置0卡

2. docker run 指定显卡为1卡和2卡

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=1,2"' 192.168.9.102:2021/example/app:latest

结果显卡1被占用,2卡没被占用,0卡也没被占用,这我就没弄明白是什么情况。

后续我又把配置文件改成1卡,docker指定1,2卡,结果被占用的只有2卡。如此反复,毫无规律。

后面我又测试了很多次,网上也找不到任何相关的资料,最终找到了一个完美的办法,可以完全不对配置文件做任何修改,也不用挂载配置文件了,过程就不说了。

解决方案:

我们在对程序做镜像的时候把a.conf配置文件显卡配置那块全部拉满,把所有卡都配置进去!。这里考虑到了四卡情况,虽然当前服务器只有3卡。

测试:

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=1,2"' 192.168.9.102:2021/example/app:latest

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=0,2"' 192.168.9.102:2021/example/app:latest

[root@k8s-rancher1 /]# docker run -it --rm -p 2021:2021  -v /root/a.conf:/root/a.conf  --gpus '"device=0"' 192.168.9.102:2021/example/app:latest

验证没有任何问题。

有没有docker大佬告诉我一下具体是什么原理呢?

docker run命令指定GPU多个显卡不生效的问题解决和代码示例的更多相关文章

  1. Docker run 命令的使用方法

    [编者的话]在Docker中,run应该是用户使用最多的命令了,很多读者反馈不是很明白run命令的用法,而且相关的书籍.中文资料中对run命令的描述也不是非常完整,所以DockerOne组织翻译了Do ...

  2. Docker run 命令参数及使用

    Docker run 命令参数及使用 Docker run :创建一个新的容器并运行一个命令 语法 docker run [OPTIONS] IMAGE [COMMAND] [ARG...] OPTI ...

  3. docker run命令运行以及参数详解

    命令格式: -a, --attach=[] 登录容器(必须是以docker run -d启动的容器) -w, --workdir="" 指定容器的工作目录 -c, --cpu-sh ...

  4. Docker(12)- docker run 命令详解

    如果你还想从头学起 Docker,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1870863.html 作用 创建一个新的容器并运行一个 ...

  5. Docker run命令详解 转

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Usage: doc ...

  6. Docker run 命令

    docker run -d -p 8084:80 --name weather --restart always --link fme-postgis 192.168.1.220:5000/weath ...

  7. Docker run命令参数整理

    Usage: docker run [OPTIONS] IMAGE [COMMAND] [ARG...] -d, --detach=false 指定容器运行于前台还是后台,默认为false -i, - ...

  8. 执行docker run命令时报错Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

    一.解决办法: 修改host 二.步骤如下 2.1 安装dig工具  sudo apt-get install dnsutils -y (ubuntu下的安装方法) 2.2 找到registry-1. ...

  9. Docker学习总结之Run命令介绍

    Docker学习总结之Run命令介绍 本文由Vikings(http://www.cnblogs.com/vikings-blog/) 原创,转载请标明.谢谢! 在使用Docker时,执行最多的命令某 ...

随机推荐

  1. Python脚本:批量将.doc文件转化为.docx文件

    将.doc转换为.docx文件有几种常用的方法: Microsoft Word 和 WPS 自带.doc转换.docx功能,但只能一个文件一个文件转换,批量转换要会员 在线网页 Office-Conv ...

  2. OpenFaaS实战之五:大话watchdog

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  3. 浅谈Java类中的变量初始化顺序

    一.变量与构造器的初始化顺序 我们知道一个类中具有类变量.类方法和构造器(方法中的局部变量不讨论,他们是在方法调用时才被初始化),当我们初始化创建一个类对象时,其初始化的顺序为:先初始化类变量,再执行 ...

  4. 「必知必会」最细致的 ArrayList 原理分析

      从今天开始也正式开 JDK 原理分析的坑了,其实写源码分析的目的不再是像以前一样搞懂原理,更重要的是看看他们编码风格更进一步体会到他们的设计思想.看源码前先自己实现一个再比对也许会有不一样的收获! ...

  5. gitlab维护之修改clone地址

    因为配置了域名访问gitlab私有仓库,但是在项目clone这里,显示的还是ip地址,并且还带端口,每次访问,clone都需要自己修改,比较不方便. 修改方法: sudo vim /opt/gitla ...

  6. Spring Cloud 专题之六:bus

    书接上回: SpringCloud专题之一:Eureka Spring Cloud专题之二:OpenFeign Spring Cloud专题之三:Hystrix Spring Cloud 专题之四:Z ...

  7. 3.python编程与计算机的关系,如何执行python文件

    上一节预告了这一章想讲如何不停地和世界打招呼,这涉及到编程中一个重要的概念:循环. 但经过了两周断更后细想了一下,不行,我们得对上一章进行补充,而且这个补充非常关键!也印证了上一章所说的: 上一节章很 ...

  8. 干了六年Android开发现在裸辞失业了,再过2个月就30了,该怎么继续生活?

    这是我在某论坛看到别人分享的故事,觉得可以展开聊一下,对于我们这些中年程序员,可以裸辞吗? 前言 首先介绍一下主人公的情况.目前所在的是一家小的创业公司,待了3年多,薪资一般吧,之前在一家中型上市企业 ...

  9. 还怕问源码?Github上神级Android三方源码解析手册,已有7.6 KStar

    或许对于许多Android开发者来说,所谓的Android工程师的工作"不过就是用XML实现设计师的美术图,用JSON解析服务器的数据,再把数据显示到界面上"就好了,源码什么的,看 ...

  10. arraycopy将数组分为两部分时游标的设置方法

    System.arraycopy是复制数组的一个常用工具,它在游标处如何分为两个是一个需要注意的问题,例如下面的示例代码: byte [] src = { 104, 101, 108, 108, 11 ...