多实例gpu_MIG技术快速提高AI生产率

Ride the Fast Lane to AI Productivity with Multi-Instance GPUs

一.平台介绍

NVIDIA安培架构中的MIG模式可以在A100 GPU上并行运行七个作业。

二.技术原理

还记得夏天休息后,在饮水机前排着长队等你吗?现在想象一下一个多头的喷泉,流动着所有人的清凉善良。

这就是NVIDIA安培体系结构中启用的多实例GPU(MIG)的本质。

MIG将一个NVIDIA A100 GPU划分为多达七个独立的GPU实例。它们同时运行,每个都有自己的内存、缓存和流式多处理器。这使得A100 GPU能够以比以前的GPU高7倍的利用率提供有保证的服务质量(QoS)。

在MIG模式下的A100可以运行多达7个不同大小的AI或HPC工作负载的任意组合。这种能力对于通常不需要现代GPU所提供的所有性能的AI推理工作特别有用。              例如,用户可以创建两个MIG实例,每个实例的内存为20gb,三个实例的内存为10gb,七个实例的内存为5gb。用户创建适合其工作负载的组合。

MIG隔离了GPU实例,所以它提供了故障隔离——一个实例中的问题不会影响在同一物理GPU上运行的其他实例。每个实例都提供有保证的QoS,确保用户的工作负载获得他们期望的延迟和吞吐量。

云服务提供商和其他企业可以使用MIG来提高其GPU服务器的利用率,为用户提供高达7倍的GPU实例。

英伟达是谷歌云的战略合作伙伴,MIG使共享Kubernetes集群中gpu的效率和利用率达到新的水平成为可能。启用这些共享GPU用例,并通过googlekubernetes引擎提供用例。

三.企业对MIG的推断

对于企业用户来说,MIG加速了人工智能模型的开发和部署。

MIG让多达7个数据科学家同时访问一个感觉像是专用GPU的东西,这样他们就可以并行工作,微调深度学习模型,以获得最佳的精度和性能。这是一项耗时的工作,但它通常不需要太多的计算能力——这是MIG的一个很好的用例。

一旦模型准备好运行,MIG允许一个GPU同时处理多达七个推理作业。这对于批量1推理工作负载来说是非常理想的,这些工作负载包括不需要完整GPU的肌肉的小的、低延迟的模型。

英伟达技术对送货机器人平台服务至关重要,MIG将能够充分利用部署的每一个GPU,能够动态地重新配置计算资源,以满足不断变化的工作负载需求,优化我们基于云的基础设施,从而最大限度地提高效率和节约成本。

四.专为IT/DevOps而建

用户不必改变CUDA编程模型就可以获得MIG对AI和HPC的好处。MIG可以与现有的Linux操作系统、Kubernetes和容器协同工作。

NVIDIA通过它为其A100提供的软件启用MIG。其中包括GPU驱动程序、NVIDIA的CUDA11软件(即将上市)、更新的NVIDIA容器运行时以及通过NVIDIA设备插件在Kubernetes中的新资源类型。

将NVIDIA虚拟计算服务器(vComputeServer)与MIG结合使用,将提供管理和监视系统管理程序(如Red Hat Virtualization和VMware vSphere)的优点。这种组合将支持流行的功能,如实时迁移和多租户。

客户越来越需要管理运行在虚拟机上的多租户工作流,同时提供隔离和安全好处,NVIDIA A100 GPU上新的多实例GPU功能支持一系列新的人工智能加速工作负载,这些工作负载可以在红帽平台上运行,从云端到边缘。

随着NVIDIA A100及其软件的到位,用户将能够看到和调度他们的新GPU实例上的作业,就好像他们是物理GPU一样。

多实例gpu_MIG技术快速提高AI生产率的更多相关文章

  1. 快速提高 Vi/Vim 使用效率的原则与途径

    Vi/Vim 是所有 Unix/Linux 操作系统默认配备的编辑器.因其强大的功能和高效的操作,Vi/Vim 也成为众多 Unix/Linux 用户.管理员必须掌握并熟练使用的编辑工具之一.尤其是在 ...

  2. web开发快速提高工作效率的一些资源

    前端学习资源实在是又多又广,在这样的一个知识的海洋里,我们像一块海绵一样吸收,想要快速提高效率,平时的总结不可缺少,以下总结了一些,排版自我感觉良好,推送出来,后续持续跟新中...... 开发工具 H ...

  3. 课程报名 | 基于模型训练平台快速打造 AI 能力

    我们常说的 AI 通用能力往往不针对具体的行业应用,而是主要解决日常或者泛化的问题,很多技术企业给出的方案是通用式的,比如通用文字识别,无论识别身份证.驾驶证.行驶证等,任何一张图片训练后的模型都会尽 ...

  4. Selenium 2.0 WebDriver 自动化测试 使用教程 实例教程 API快速参考

    Selenium 2.0 WebDriver 自动化测试 使用教程 实例教程 API快速参考 //System.setProperty("webdriver.firefox.bin" ...

  5. Docker技术快速精通指南

    doctor专业网站:http://www.dockerinfo.net/ Docker中文文档 csdn 的docker专栏: Docker技术快速精通指南

  6. 如何有效快速提高Java服务端开发人员的技术水平?

    我相信很多工作了3-5年的开发人员都会经常问自己几个问题: 1.为什么总是感觉技术没有质的提高? 2.如何能够有效和快速的提高自身的技术水平? 3.如何进入到一个牛逼的大公司,认识牛逼的人? 这篇文章 ...

  7. css sprites-简单实例让你快速掌握css sprites精髓

    这段时间有几次接触到了css sprites的概念,一个就是在用css做滑动门的时候,另外一个就是在用YSlow分析网站性能的时候,于是对css sprites这个概念产生了浓厚的兴趣.在网上查找了很 ...

  8. Ajax实例OR技术原理 转自 (http://blog.csdn.net/evankaka )

    摘要:AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术.AJAX 是一种用于创建快速动态网页的 ...

  9. IT之快速提高效率的方法与思考

    前言 文章也没什么很高深的问题,大概花个5分钟能看完.是一些大家都知道的道理,作为提醒与总结. 关于提高方面的内容,一般都有个人的方法,但大致都一致.可分为几个步骤. 框架.工具使用相关 使用框架.工 ...

随机推荐

  1. addslashes,htmlspecialchars,htmlentities转换或者转义php特殊字符防止xss攻击以及sql注入

    一.转义或者转换的目的 1. 转义或者转换字符串防止sql注入 2. 转义或者转换字符防止html非过滤引起页面布局变化 3. 转义或者转换可以阻止javascript等脚本的xss攻击,避免出现类似 ...

  2. ubuntu 1804 配置阿里源

    以防出错,先备份sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak编辑元列表文件sudo vim /etc/apt/sources.list ...

  3. UVA11389巴士司机问题

    题意:       有n个巴士司机,然后有2n个活,其中有n个是上午,n个是下午,每个自己都要选择一个上午的和一个下午的,每个活都有驾驶距离,如果一个司机每天的驾驶距离大于d,那么超出的部分就要每个单 ...

  4. Cannot read property 'style' of null

    代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8& ...

  5. RSS阅读器 - Reeder

    苹果生态圈内最佳RSS阅读器 - Reeder 好用就完事了

  6. Mac FTP 安装与使用

    安装ftp brew install telnet brew install inetutils brew link --overwrite inetutils 使用ftp 1. 登录 #方式一 $ ...

  7. Centos7下搭建gitbook环境踩坑记录

    1.安装npm yum -y install npm 2.配置npm仓 npm config set registry https://mirrors.tencent.com/npm/ 3.安装git ...

  8. [MySQL数据库之表的约束条件:primary key、auto_increment、not null与default、unique、foreign key:表与表之间建立关联]

    [MySQL数据库之表的约束条件:primary key.auto_increment.not null与default.unique.foreign key:表与表之间建立关联] 表的约束条件 约束 ...

  9. (Dubbo架构)基于MDC+Filter的跨应用分布式日志追踪解决方案

    在单体应用中,日志追踪通常的解决方案是给日志添加 tranID(追踪ID),生成规则因系统而异,大致效果如下: 查询时只要使用 grep 命令进行追踪id筛选即可查到此次调用链中所有日志,但是在 du ...

  10. [bug] HDFS:DataXceiver error processing WRITE_BLOCK operation

    文件格式有误,导致读取错误,我的是把制表符敲成了空格