1 背景

随着Nvidia GPU在渲染、编解码和计算领域发挥着越来越重要的作用，各大软件厂商对于Nvidia GPU的研究也越来越深入，尽管Nvidia倾向于生态闭源，但受制于极大的硬件成本压力，提升GPU利用率、压榨GPU性能逐渐成为基础设施领域关注的焦点。自然地，为了追求GPU上显存资源和算力资源的时分复用和空分复用，大家都开始考虑软件定义GPU，GPU虚拟化应运而生。

2 GPU虚拟化

在深度学习领域，Nvidia GPU的软件调用栈大致如下图所示，从上至下分别为：

User APP：业务层，如训练或推理任务等

Framework：框架层，如tensorflow、pytorch、paddle、megengine等

CUDA Runtime：CUDA Runtime及周边生态库，如cudart、cublas、cudnn、cufft、cusparse等

CUDA User Driver：用户态CUDA Driver，如cuda、nvml等

CUDA Kernel Driver：内核态CUDA Driver，参考官方开源代码，如nvidia.ko等

Nvidia GPU HW：GPU硬件

理论上，上述每一层都可以做GPU虚拟化，但从工程化的角度来看，考虑可行性、可维护性、overhead和部署方面，在CUDA Driver或硬件层实现更合适。

2.1 用户态虚拟化

目前比较常用的方法是在用户态CUDA Driver的动态库做劫持，参考cuda hook开源代码。通过拦截CUDA Driver API的调用，实现显存资源和算力资源的隔离。不仅对用户代码零侵入，而且灵活性较高，无论是部署在Bare Metal，还是结合容器化进行部署，都比较方便。

2.2 内核态虚拟化

通过劫持CUDA Driver动态库部署，可能会存在用户篡改的风险，在公有云上一般不能容忍。而内核态的优势在于可以一定程度上防止用户篡改，但由于Nvidia的闭源性，在内核态做显存资源和算力资源的隔离，技术难度较高。目前阿里云、腾讯云和百度云已经实现部署。

2.3 硬件虚拟化

Nvidia官方硬件虚拟化方案MIG（Multi-Instance GPU），从Ampere架构开始支持硬件层面的隔离，隔离程度更彻底，但最多只支持7个GPU实例的虚拟化环境。

3 其他

3.1 vGPU

Nvidia官方虚拟GPU解决方案，主要用于支持交付图形丰富的虚拟桌面和工作站，可以将GPU资源重新划分，以保证GPU资源可以在多个虚拟机之间共享，或者可以将多个GPU分配给一个虚拟机，可提升任意工作负载的性能。

3.2 MPS（Multi-Process Service）

Nvidia官方多进程context融合方案，支持将多个进程上的kernel发送到MPS server或者直接发送到GPU上计算，避免了多进程在GPU上context的频繁切换。缺点是故障率较高，特别是故障在进程间扩散一般是不能容忍的。

3.3 远程GPU

将GPU Server拉远，实现GPU池化，突破CPU与GPU的配比极限，拓展GPU虚拟化，可以最大限度地利用集群内的GPU碎片，提升GPU的利用率。趋动科技的OrionX方案，目前处于领先地位。

Nvidia GPU虚拟化的更多相关文章

HP “云图”GPU虚拟化工作站解决方案
HP PCS ”云图”GPU虚拟化工作站解决方案 ——将图形计算从桌面移到数据中心惠普云图形GPU虚拟化桌面系统是以用户为中心的私有云服务.除了保留了传统桌面虚拟化方案以集中设备为中心统一管理等优点 ...
GPU虚拟化技术详解
GPU虚拟化技术详解 GPU英文名称为Graphic Processing Unit,GPU中文全称为计算机图形处理器,1999年由NVIDIA公司提出. 一.GPU概述 GPU这一概念也是相对于计算 ...
kvmgt-kernel 实现GPU虚拟化
KVMGT-kernel是Intel开源技术01.org推出的一项完整的GPU虚拟化解决方案,在KVM和XEN的基础上实现.本文档对该技术进行相应测试,让大家有个基本参考和了解.KVMGT-kerne ...
Win10提示“您未连接到nvidia gpu的显示器”的解决方法
显卡有Nvidia 和 ATI两个芯片,我们经常称他们为N卡和A卡,N卡更加注重于性能,而A卡则为颜色艳丽,画面更好.不过,最近一些windows10系统用户在使用N卡过程中,遇到了提示“您当前未使用 ...
利用nvidia-smi 管理和监控NVIDIA GPU设备
NVIDIA系统管理界面介绍原文来源:https://developer.nvidia.com/nvidia-system-management-interface NVIDIA系统管理界面(nvi ...
NVIDIA GPU Pascal架构简述
NVIDIA GPU Pascal架构简述本文摘抄自英伟达Pascal架构官方白皮书:https://www.nvidia.com/en-us/data-center/resources/pasca ...
NVIDIA GPU Volta架构简述
NVIDIA GPU Volta架构简述本文摘抄自英伟达Volta架构官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Ce ...
NVIDIA GPU Turing架构简述
NVIDIA GPU Turing架构简述本文摘抄自Turing官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/design-vis ...
NVIDIA GPU自动调度神经网络
NVIDIA GPU自动调度神经网络对特定设备和工作负载进行自动调整对于获得最佳性能至关重要.这是有关如何使用自动调度器为NVIDIA GPU调整整个神经网络. 为了自动调整神经网络,将网络划分为小 ...
NVIDIA GPU的快速傅立叶变换
NVIDIA GPU的快速傅立叶变换 cuFFT库提供GPU加速的FFT实现,其执行速度比仅CPU的替代方案快10倍.cuFFT用于构建跨学科的商业和研究应用程序,例如深度学习,计算机视觉,计算物理, ...

随机推荐

mysql语句优化总结
Sql语句优化和索引 1.Innerjoin和左连接,右连接,子查询 A. inner join内连接也叫等值连接是,left/rightjoin是外连接. SELECT A.id,A.nam ...
test.sh 监听进程是否存在
监听myloader进程是否结束,结束后把时间输出到 /root/time.log vim test.sh #!/bin/bash #确保PRO查询进程唯一 PRO="myloader&qu ...
MAVEN实践经验
1安装与配置 jdk: 1.6或以上下载MAVEN3.x版本,解压后放在随便一目录,然后在系统环境变量配置MAVEN路径. 运行cmd-->输入 mvn -version 会出现maven版本 ...
实践课：i至诚app案例分析---江洁兰
这个作业属于哪个课程至诚软工实践F班这个作业要求在哪里作业要求这个作业的目标分析产品软件,找出其中的问题并进行分析,提高对产品软件bug方面的认识学号 212106715 第一部分找Bu ...
format UTF-8 BOM by AX
#File CommaTextIo commaTextIo; FileIOPermission permission; CustTable custTable; str fileName = @&qu ...
Codeforces Round #808 (Div. 2)
Codeforces Round #808 (Div. 2) 传送门:https://codeforces.com/contest/1708 错过了,第二天vp的,只写出了AB就卡C了,竟然看不出是贪 ...
Leecode 1.两数之和（Java 哈希表）
想法: 1.哈希表hashmap 第一种方法:将数组中元素及其下标right都加入hashmap中,对于每个元素n下标left,在map中查找是否有target-n的元素,若有,则返回其下标right ...
DNS CNAME limitations cname 在哪些情况下不能配置
https://www.rfc-editor.org/rfc/rfc1912.html https://www.rfc-editor.org/rfc/rfc2181.html 说明: domain n ...
Redis中 HyperLogLog数据类型使用总结
转载请注明出处: 目录 1. HyperLogLog 的原理 2.使用步骤 3.实现请求ip去重的浏览量使用示例 4.Jedis客户端使用 5.Redission使用依赖 6.HyperLogLog ...
分布式搜索-elasticsearch
学习黑马- SpringCloud微服务技术栈项目的分布式搜索章节自行整理的笔记,方便日后的重构. 项目涉及技术知识点是按照集数依次整理,方便日后回来查找. 考虑到不是固定的联网方式,时而WiFi, ...

Nvidia GPU虚拟化