前言

AI 落地时，在某些场景下 AI 模型在训练或者是推理时，其算力要求不需要占用整卡的 GPU，比如只需要0.5卡 GPU 即可满足需求。

在这种情况下，可以使用 GPU 虚拟化技术来解决这个问题，将整卡的 GPU 虚拟化为两个0.5卡的 GPU，这样就可以在一张卡上同时跑两个 AI 训练或者 AI 推理应用服务，极大压榨算力资源，降低成本。

vGPU 是 NVIDIA 提供的一种 GPU 虚拟化的一种方案，同时也可以实现对多用户的强 GPU 隔离方案

基本痛点：

容器使用的单卡 GPU 利用率不够高，特别是推理任务；
为了提高 GPU 的利用率、避免算力浪费，需要在单个 GPU 上运行多个容器
而 vGPU 的使用需要额外从 NVIDIA 公司购买 license。年度订阅和永久许可证

其他vGPU插件

https://github.com/4paradigm/k8s-vgpu-scheduler

4paradigm 提供了 k8s-device-plugin，该插件基于NVIDIA官方插件( NVIDIA/k8s-device-plugin)，在保留官方功能的基础上，实现了对物理 GPU 进行切分，并对显存和计算单元进行限制，从而模拟出多张小的 vGPU卡`。

在 k8s 集群中，基于这些切分后的 vGPU 进行调度，使不同的容器可以安全的共享同一张物理 GPU，提高 GPU 的利用率。

此外，插件还可以对显存做虚拟化处理（使用到的显存可以超过物理上的显存），运行一些超大显存需求的任务，或提高共享的任务数。

部署

配置docker

nvidia-smi命令，查看当前显卡信息

如果你使用了 docker，需要讲将 nvidia runtime 设置为 docker runtime 预设值，此文件通常在 /etc/docker/daemon.json 路径：

{

    "default-runtime": "nvidia",

    "runtimes": {

        "nvidia": {

            "path": "/usr/bin/nvidia-container-runtime",

            "runtimeArgs": []

        }

    }

}

docker 重新加载配置

systemctl daemon-reload && systemctl restart docker

配置containerd

你需要在节点上将 nvidia runtime 做为你的 containerd runtime 预设值。

我们将编辑 containerd daemon 的配置文件，此文件通常在 /etc/containerd/config.toml 路径

version = 2

[plugins]

  [plugins."io.containerd.grpc.v1.cri"]

    [plugins."io.containerd.grpc.v1.cri".containerd]

      default_runtime_name = "nvidia"

      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]

        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]

          privileged_without_host_devices = false

          runtime_engine = ""

          runtime_root = ""

          runtime_type = "io.containerd.runc.v2"

          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]

            BinaryName = "/usr/bin/nvidia-container-runtime"

containerd 重新加载配置

systemctl daemon-reload && systemctl restart containerd

查看当前gpu分配情况

可以通过 kubectl describe node node1命令，查看你指定节点的 gpu 个数情况：

Allocatable:

  cpu:                32

  ephemeral-storage:  94059137278

  hugepages-1Gi:      0

  hugepages-2Mi:      0

  memory:             65738804Ki

  nvidia.com/gpu:     2

  pods:               110

关闭NVIDIA官方插件

把 nvidia-device-plugin ds 描述文件移除即可，为安全可以移动到其它目录，如下移动到家目录做备份保存。

mv /etc/kubernetes/manifests/nvidia-device-plugin.yml .

启用新的gpu设备插件

启动 4paradigm 新的 k8s-device-plugin

apiVersion: apps/v1

kind: DaemonSet

metadata:

  name: nvidia-device-plugin-daemonset

  namespace: kube-system

spec:

  selector:

    matchLabels:

      name: nvidia-device-plugin-ds

  updateStrategy:

    type: RollingUpdate

  template:

    metadata:

      annotations:

        scheduler.alpha.kubernetes.io/critical-pod: ""

      labels:

        name: nvidia-device-plugin-ds

    spec:

      tolerations:

      - key: CriticalAddonsOnly

        operator: Exists

      - key: nvidia.com/gpu

        operator: Exists

        effect: NoSchedule

      priorityClassName: "system-node-critical"

      containers:

      - image: 4pdosc/k8s-device-plugin:latest

        imagePullPolicy: Always

        name: nvidia-device-plugin-ctr

        args: ["--fail-on-init-error=false", "--device-split-count=6", "--device-memory-scaling=2", "--device-cores-scaling=1"]

        env:

        - name: PCIBUSFILE

          value: "/usr/local/vgpu/pciinfo.vgpu"

        - name: NVIDIA_MIG_MONITOR_DEVICES

          value: all

        securityContext:

          allowPrivilegeEscalation: false

          capabilities:

            drop: ["ALL"]

            add: ["SYS_ADMIN"]

        volumeMounts:

          - name: device-plugin

            mountPath: /var/lib/kubelet/device-plugins

          - name: vgpu-dir

            mountPath: /usr/local/vgpu

          - mountPath: /tmp

            name: hosttmp

      volumes:

        - name: device-plugin

          hostPath:

            path: /var/lib/kubelet/device-plugins

        - name: vgpu-dir

          hostPath:

            path: /usr/local/vgpu

        - hostPath:

            path: /tmp

          name: hosttmp

      nodeSelector:

        nvidia-vgpu: "on"

将以上代码保存为 vgpu-nvdp.yaml 文件，然后安装

kubectl apply -f vgpu-nvdp.yaml

fail-on-init-error:布尔类型, 预设值是 true。当这个参数被设置为 true 时，如果装置插件在初始化过程遇到错误时程序会返回失败，当这个参数被设置为 false 时，遇到错误它会打印信息并且持续阻塞插件。持续阻塞插件能让装置插件即使部署在没有 GPU 的节点（也不应该有 GPU）也不会抛出错误。这样你在部署装置插件在你的集群时就不需要考虑节点是否有 GPU，不会遇到报错的问题。然而，这么做的缺点是如果 GPU 节点的装置插件因为一些原因执行失败，将不容易察觉。现在预设值为当初始化遇到错误时程序返回失败，这个做法应该被所有全新的部署采纳。

device-split-count:整数类型，预设值是 2。NVIDIA 装置的分割数。对于一个总共包含N张 NVIDIA GPU 的 Kubernetes 集群，如果我们将device-split-count参数配置为K，这个 Kubernetes 集群将有K * N个可分配的 vGPU 资源。注意，我们不建议将 NVIDIA 1080 ti/NVIDIA 2080 tidevice-split-count参数配置超过 5，将 NVIDIA T4 配置超过 7，将 NVIDIA A100 配置超过 15。

device-memory-scaling:浮点数类型，预设值是 1。NVIDIA 装置显存使用比例，可以大于 1（启用虚拟显存，实验功能）。对于有M显存大小的 NVIDIA GPU，如果我们配置device-memory-scaling参数为S，在部署了我们装置插件的 Kubenetes 集群中，这张 GPU 分出的 vGPU 将总共包含S * M显存。每张 vGPU 的显存大小也受device-split-count参数影响。在先前的例子中，如果device-split-count参数配置为K，那每一张 vGPU 最后会取得S * M / K大小的显存。

device-cores-scaling:浮点数类型，预设值是 1。NVIDIA 装置算力使用比例，可以大于 1。如果device-cores-scaling参数配置为Sdevice-split-count参数配置为K，那每一张 vGPU 对应的一段时间内 sm 利用率平均上限为S / K。属于同一张物理 GPU 上的所有 vGPU sm 利用率总和不超过 1。

enable-legacy-preferred:布尔类型，预设值是 false。对于不支持 PreferredAllocation 的 kublet（<1.19）可以设置为 true，更好的选择合适的 device，开启时，本插件需要有对 pod 的读取权限，可参看 legacy-preferred-nvidia-device-plugin.yml。对于 kubelet >= 1.9 时，建议关闭。

打上gpu标签

在需要进行虚拟化的节点打上标签 nvidia-vgpu:"on" ，否则该节点不会被调度到，或者你打其他标签也行，取决于你设置的 nodeSelector

kubectl label node {nodeid} nvdia-vgpu=on

等插件部署完成后，再次执行 kubectl describe node node1命令，查看节点的 gpu 个数情况

运行GPU任务

NVIDIA vGPUs 现在能透过资源类型 nvidia.com/gpu 被容器请求：

apiVersion: v1

kind: Pod

metadata:

  name: gpu-pod

spec:

  containers:

    - name: ubuntu-container

      image: ubuntu:18.04

      command: ["bash", "-c", "sleep 86400"]

      resources:

        limits:

          nvidia.com/gpu: 2 # 请求2个vGPUs

	  nvidia.com/gpumem: 3000 # 每个vGPU申请3000m显存 （可选，整数类型）

	  nvidia.com/gpucores: 30 # 每个vGPU的算力为30%实际显卡的算力 （可选，整数类型）

如果你的任务无法运行在任何一个节点上（例如任务的 nvidia.com/gpu 大于集群中任意一个 GPU 节点的实际 GPU 数量）,那么任务会卡在 pending 状态

现在你可以在容器执行 nvidia-smi 命令，然后比较 vGPU 和实际 GPU 显存大小的不同。

监控vGPU使用情况

调度器部署成功后，监控默认自动开启，你可以通过

http://{nodeip}:{monitorPort}/metrics

来获取监控数据，其中 monitorPort 可以在 Values 中进行配置，默认为 31992

grafana dashboard 示例：https://github.com/4paradigm/k8s-vgpu-scheduler/blob/master/docs/dashboard_cn.md

注意节点上的 vGPU 状态只有在其使用 vGPU 后才会被统计 W

kubernetes安装配置使用vGPU的更多相关文章

Kubernetes安装配置（包括master和node）
部署Kubernetes云计算平台,至少准备两台服务器,此处为4台,包括一台Docker仓库: Kubernetes Master节点:192.168.124.20 Kubernetes Node1节 ...
离线环境下使用二进制方式安装配置Kubernetes集群
本文环境 Redhat Linux 7.3,操作系统采用的最小安装方式. Kubernetes的版本为 V1.10. Docker版本为18.03.1-ce. etcd 版本为 V3.3.8. 1. ...
Docker系列(九)Kubernetes安装
环境: A.B两天机器A机器IP:192.169.0.104,B机器IP:192.168.0.102,其中A为Master节点,B为Slave节点操作系统:Centos7 Master与Slave节 ...
kubernetes安装
本文主要参考自: https://blog.csdn.net/real_myth/article/details/78719244 还有一份更适合在生产环境使用的超强高可用(多master,nginx ...
docker官方文档学习-1-Docker for mac安装配置
https://docs.docker.com/docker-for-mac/ Get started with Docker for Mac 首先像在本博客docker-1-环境安装及例子实践处将环 ...
[ci] jenkins kubernetes插件配置(容器模式)-通过jnlp
有个小伙用sh结合jenkins搞的k8s cicd还不错 jenkins kubernetes插件首先插件管理,搜索kubernetes plugin安装配置kubernetes云配置项目执 ...
CoreDNS kubernetes 安装使用
kubernetes 以前是skydns 后面变为 dnsmasq,coredns 也是一个不错的工具 1. 准备环境安装 kubernetes 配置 kubelet 的cluster-dns 2 ...
轻松加愉快的 Kubernetes 安装教程
轻松加愉快的 Kubernetes 安装教程马哥Linux运维 2 days ago 作者:无聊的学习者来源:见文末在国内安装 K8S,一直是大家很头痛的问题,各种麻烦,关键是还不知道需要下载什 ...
Kuboard Kubernetes安装
一.简介 Kubernetes 容器编排已越来越被大家关注,然而使用 Kubernetes 的门槛却依然很高,主要体现在这几个方面: 集群的安装复杂,出错概率大 Kubernetes相较于容器化,引入 ...
Kustomize安装配置入门文档
一,简介 kustomize是sig-cli的一个子项目,它的设计目的是给kubernetes的用户提供一种可以重复使用同一套配置的声明式应用管理,从而在配置工作中用户只需要管理和维护kubernet ...

随机推荐

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v6.2版已发布
关于MobileIMSDK MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架,超轻量级.高度提炼,一套API优雅支持UDP .TCP .WebSocket 三种协议,支持iOS.A ...
webpack使用详解
官网官网:https://webpack.js.org 中文网:https://www.webpackjs.com 一.介绍从webpack4.+进行介绍,会对Webpack常用配置一一讲解,各个 ...
第九章 ThreadPoolExecutor源码解析
ThreadPoolExecutor使用 + 工作机理 + 生命周期 1.最基础的线程池ThreadPoolExecutor 使用方式: 1 /** 2 * ThreadPoolExecutor测试类 ...
RocketMQ -- offset管理
正文首先来明确一下 Offset 的含义, RocketMQ 中, 一种类型的消息会放到一个 Topic 里,为了能够并行, 一般一个 Topic 会有多个 Message Queue (也可以 ...
java多线程---总结（1）
线程创建.start.run 一.创建线程方式 java创建线程的方式,主要有三种:类Thread.接口Runnable.接口Callable. 1.Thread和Runnable进行比较他们之间的 ...
《SpringBoot》史上最全SpringBoot相关注解介绍
@SpringBootApplication @SpringBootApplication看作是 @Configuration.@EnableAutoConfiguration.@ComponentS ...
java中的文件流File
数据 + 流(转)操作 IO I表示的是:输入Input O表示的是:Output Stream表示流转 java中的管道不止一个.并且管道有可能不是一样的. 有的管道粗有的管道细 File的常用方法 ...
数据存储“取经路”，HBlock轻松“渡”！
近日,天翼云联合权威科技媒体InfoQ举办了以"新存储,更轻量"为主题的线上技术分享会.天翼云存储产品线总监武志民讲解了HBlock的创新设计和技术. 高性能·高可用·高可靠自研 ...
云电脑Win7系统安装报错详解：问题与解决方案
本文分享自天翼云开发者社区<云电脑Win7系统安装报错详解:问题与解决方案>,作者:每日知识小分享随着云计算技术的快速发展,越来越多的人开始使用云电脑.然而,在为云电脑安装Win7系统时 ...
NSSM：简化Windows服务配置，提升系统维护效率
NSSM:简化Windows服务配置,提升系统维护效率在Windows系统环境中,服务的配置与管理是一项复杂而重要的任务.传统的服务管理方式往往涉及繁琐的步骤,不仅效率低下,还容易出错.然而,随着N ...

kubernetes安装配置使用vGPU

前言