在Kubernetes（k8s）中使用GPU

介绍

Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU （图形处理单元）进行管理，目前处于实验状态。

修改docker配置文件

root@hello:~# cat /etc/docker/daemon.json

{

    "default-runtime": "nvidia",

    "runtimes": {

        "nvidia": {

            "path": "/usr/bin/nvidia-container-runtime",

            "runtimeArgs": []

        }

    },

  "data-root": "/var/lib/docker",

  "exec-opts": ["native.cgroupdriver=systemd"],

  "registry-mirrors": [

    "https://docker.mirrors.ustc.edu.cn",

    "http://hub-mirror.c.163.com"

  ],

  "insecure-registries": ["127.0.0.1/8"],

  "max-concurrent-downloads": 10,

  "live-restore": true,

  "log-driver": "json-file",

  "log-level": "warn",

  "log-opts": {

    "max-size": "50m",

    "max-file": "1"

    },

  "storage-driver": "overlay2"

}

root@hello:~#

root@hello:~# systemctl  daemon-reload

root@hello:~# systemctl  start docker

添加标签

root@hello:~# kubectl label nodes 192.168.1.56 nvidia.com/gpu.present=true

root@hello:~# kubectl get nodes -L nvidia.com/gpu.present

NAME           STATUS                     ROLES    AGE    VERSION   GPU.PRESENT

192.168.1.55   Ready,SchedulingDisabled   master   128m   v1.22.2

192.168.1.56   Ready                      node     127m   v1.22.2   true

root@hello:~#

安装helm仓库

root@hello:~# curl https://baltocdn.com/helm/signing.asc | sudo apt-key add -

root@hello:~# sudo apt-get install apt-transport-https --yes

root@hello:~# echo "deb https://baltocdn.com/helm/stable/debian/ all main" | sudo tee /etc/apt/sources.list.d/helm-stable-debian.list

root@hello:~# sudo apt-get update

root@hello:~# sudo apt-get install helm

helm install \

    --version=0.10.0 \

    --generate-name \

    nvdp/nvidia-device-plugin

查看是否有nvidia

root@hello:~# kubectl describe node 192.168.1.56 | grep nv

                    nvidia.com/gpu.present=true

  nvidia.com/gpu:     1

  nvidia.com/gpu:     1

  kube-system                 nvidia-device-plugin-1637728448-fgg2d         0 (0%)        0 (0%)      0 (0%)           0 (0%)         50s

  nvidia.com/gpu     0           0

root@hello:~#

下载镜像

root@hello:~# docker pull registry.cn-beijing.aliyuncs.com/ai-samples/tensorflow:1.5.0-devel-gpu

root@hello:~# docker save -o tensorflow-gpu.tar  registry.cn-beijing.aliyuncs.com/ai-samples/tensorflow:1.5.0-devel-gpu

root@hello:~# docker load -i tensorflow-gpu.tar

创建tensorflow测试pod

root@hello:~# vim gpu-test.yaml

root@hello:~# cat gpu-test.yaml

apiVersion: v1

kind: Pod

metadata:

  name: test-gpu

  labels:

    test-gpu: "true"

spec:

  containers:

  - name: training

    image: registry.cn-beijing.aliyuncs.com/ai-samples/tensorflow:1.5.0-devel-gpu

    command:

    - python

    - tensorflow-sample-code/tfjob/docker/mnist/main.py

    - --max_steps=300

    - --data_dir=tensorflow-sample-code/data

    resources:

      limits:

        nvidia.com/gpu: 1

  tolerations:

  - effect: NoSchedule

    operator: Exists

root@hello:~#

root@hello:~# kubectl  apply -f gpu-test.yaml

pod/test-gpu created

root@hello:~#

查看日志

root@hello:~# kubectl logs test-gpu

WARNING:tensorflow:From tensorflow-sample-code/tfjob/docker/mnist/main.py:120: softmax_cross_entropy_with_logits (from tensorflow.python.ops.nn_ops) is deprecated and will be removed in a future version.

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow

into the labels input on backprop by default.

See tf.nn.softmax_cross_entropy_with_logits_v2.

2021-11-24 04:38:50.846973: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:895] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

2021-11-24 04:38:50.847698: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1105] Found device 0 with properties:

name: Tesla T4 major: 7 minor: 5 memoryClockRate(GHz): 1.59

pciBusID: 0000:00:10.0

totalMemory: 14.75GiB freeMemory: 14.66GiB

2021-11-24 04:38:50.847759: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1195] Creating TensorFlow device (/device:GPU:0) -> (device: 0, name: Tesla T4, pci bus id: 0000:00:10.0, compute capability: 7.5)

root@hello:~#

https://blog.csdn.net/qq_33921750

https://my.oschina.net/u/3981543

https://www.zhihu.com/people/chen-bu-yun-2

https://segmentfault.com/u/hppyvyv6/articles

https://juejin.cn/user/3315782802482007

https://space.bilibili.com/352476552/article

https://cloud.tencent.com/developer/column/93230

知乎、CSDN、开源中国、思否、掘金、哔哩哔哩、腾讯云

在Kubernetes（k8s）中使用GPU的更多相关文章

Docker系列（三）：将.Net Core Api部署到Kubernetes (K8s)中
1.新建一个WebApi项目,并添加Dockerfile文件: FROM microsoft/dotnet:2.1-aspnetcore-runtime AS base WORKDIR /app EX ...
Kubernetes K8S之通过yaml文件创建Pod与Pod常用字段详解
YAML语法规范:在kubernetes k8s中如何通过yaml文件创建pod,以及pod常用字段详解 YAML 语法规范 K8S 里所有的资源或者配置都可以用 yaml 或 Json 定义.YAM ...
Kubernetes 教程：在 Containerd 容器中使用 GPU
原文链接:https://fuckcloudnative.io/posts/add-nvidia-gpu-support-to-k8s-with-containerd/ 前两天闹得沸沸扬扬的事件不知道 ...
Kubernetes之在k8s中部署Java应用
部署好了k8s以后部署参考https://www.cnblogs.com/minseo/p/12055731.html 怎么在k8s部署应用项目迁移到k8s平台是怎样的流程 1,制作镜像 2,控制 ...
无需手动输入命令，简单3步即可在K8S集群中启用GPU！
随着全球各大企业开始广泛采用Kubernetes,我们看到Kubernetes正在向新的阶段发展.一方面,Kubernetes被边缘的工作负载所采用并提供超越数据中心的价值.另一方面,Kubernet ...
【Kubernetes】在K8s中创建StatefulSet
在K8s中创建StatefulSet 遇到的问题: 使用Deployment创建的Pod是无状态的,当挂在Volume之后,如果该Pod挂了,Replication Controller会再run一个 ...
ASP.NET Core在Azure Kubernetes Service中的部署和管理
目录 ASP.NET Core在Azure Kubernetes Service中的部署和管理目标准备工作注册 Azure 账户 AKS文档进入Azure门户(控制台) 安装 Azure Cl ...
《两地书》--Kubernetes(K8s)基础知识(docker容器技术)
大家都知道历史上有段佳话叫“司马相如和卓文君”.“皑如山上雪,皎若云间月”.卓文君这么美,却也抵不过多情女儿薄情郎. 司马相如因一首<子虚赋>得汉武帝赏识,飞黄腾达之后便要与卓文君“故来相 ...
k8s中yaml文常见语法
在k8s中,所有的配置都是 json格式的.但为了读写方便,通常将这些配置写成yaml 格式,其运行的时候,还是会靠yaml引擎将其转化为json,apiserver 也仅接受json的数据类型. y ...
新版的K8S中的flannel.yaml文件中要注意的细节
部署flannel作为k8s中的网络插件,yaml文件都大小同异. 但在要注意以下细节. 以前,只需要前面master判断. 现在也需要有not-ready状态了. tolerations: - ke ...

随机推荐

安装 vue devtools 时，npm i 和 npm run build 报错问题
1.如果 npm i 报错,运行如下命令: npm i --legacy-peer-deps 2.如果 npm run build 报错,运行如下命令: npm install -g yarn yar ...
python学习笔记5--正则表达式
正则表达式: 语法: import re #导入模块名 p = re.compile("^[0-9]") #生成要匹配的正则对象 , ^代表从开头匹配,[0-9]代表匹配0至9的任 ...
Linux系列---【内存占用过高问题排查思路】
内存占用过高问题排查思路 1.使用top命令查看后台任务按shift+M使应用按内存使用率排序,定位到第一个使用内存最高的应用,并找到对应的PID. 2.使用ps命令查看对应的pid对应哪个应用 p ...
vue-固定头部-内容可滚动
<div class="show-box"> <div class="show-top"> ...
使用Microsoft Network Monitor 抓包分析文件上传
Microsoft 自己提供了一个官方的抓包工具,可以比较方便的在windows平台抓包,并可以提供协议关键字正则.安装包位置:\\192.168.10.248\public\ghw\tools\MN ...
关于在html中不能正确的打出字符
由于在html中一些字符不能正确的使用,例如大于号或者小于号,浏览器在解析的过程中会将其误认为标签,那html也是非我们提供了一些预留字符,如下(部分): 1.大于号(>):&gt 2. ...
Kubernetes（k8s）pod详解
一.简介在Kubernetes集群中,Pod是所有业务类型的基础,也是K8S管理的最小单位级,它是一个或多个容器的组合.这些容器共享存储.网络和命名空间,以及如何运行的规范.在Pod中,所有容器都被 ...
HPA 弹性伸缩
在k8s中,我们使用pod对外提供服务,这个时候,需要以下两种情形需要关注: pod因为不明原因挂掉,导致服务不可用 pod在高负载的情况下,不能支持我们的服务如果人工监控pods,人工调整副本,那 ...
适用于 Linux 的 Windows 子系统使用 Visual Studio Code
在WSL中使用VS Code,先在Windows中安装vscode,再通过功能扩展安装Vscode for wsl. VSCode 有system和user两个版本,默认下载链接为user版本.以下内 ...
修改linux服务器时间
date -s "20220104 11:07:05" &&hwclock --systohc

在Kubernetes（k8s）中使用GPU

在Kubernetes（k8s）中使用GPU的更多相关文章

随机推荐

热门专题