阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务。

轻量级GPU云服务器是什么?

轻量级GPU云服务器是一种新的GPU云服务器规格族,是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源,比如拥有更少的CUDA计算核心,更小的显存。这样做的优势是在业务应用中,业务可以根据资源所需更加灵活的配置GPU计算资源。

用户在使用常规GPU云服务器的时候遇到了哪些痛点?

GPU的计算颗粒过大:
单颗物理GPU的计算能力越做越强大,但是许多应用需要更小颗粒的GPU计算资源;
常规GPU资源不利于业务自动伸缩:
拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”,不利于设计成弹性伸缩架构,缺乏灵活性,无法应对业务快速变化;
常规GPU计算实例无法在线迁移:
常规直通虚拟化的GPU实例,由于架构特性无法支持GPU实例的在线迁移;

轻量级GPU云服务器与常规GPU云服务器有哪些不同?

我们从GPU加速器呈现方式,业务连续性,计算业务场景以及使用与管理看不同:
GPU加速器呈现
常规GPU云服务器实例是通过设备直通方式提供物理GPU加速器;
轻量级GPU云服务器实例是通过GPU虚拟化方式提供虚拟GPU加速器;
业务连续性
常规GPU云服务器仅支持作业离线迁移
轻量级GPU云服务器支持作业在线迁移
计算业务场景
常规GPU云服务器适用于重负载的GPU加速计算,例如:深度学习训练与推理计算、HPC计算、重载图形计算
轻量级GPU云服务器适用于轻负载的GPU加速计算,例如:轻负载的深度学习推理计算、深度学习教学场景、云游戏与VR/AR场景
使用与管理
常规GPU云服务器提供弹性计算服务实例、业务扩展以单颗物理GPU资源方式增加
轻量级GPU云服务器依然提供弹性计算服务实例,但业务扩展以更小粒度GPU资源方式增加(例如:1/8或1/4颗Tesla P4的资源);

VGN5i有哪些技术亮点和技术领先性,解决哪些问题?

技术亮点:支持用户在公共云上创建更小颗粒的虚拟GPU的云服务器实例。
技术领先性有三点:
任何一项领先的计算技术要将其移植到公共云上输出,还是要遵循可靠性、经济性和易用性的技术要求。
首先是可靠性,公共云服务器首先是公共服务,要给所有用户提供“简单可依赖”的基础服务;虽然虚拟化GPU技术在私有部署条件下使用比较成熟,但是在公共云上使用还是要面临几个可靠性的挑战的:第一是数据安全性;第二是资源隔离;这两个问题在私有部署条件下通常是没有要求的,原因是私有部署都是给同一用户部署使用,安全和资源争抢问题都比较容易解决。但是,要在公共云上使用,这些问题在公共云上就必须解决。
其次是经济性,用户能选择使用轻量级GPU云服务器出发点是希望更加精细的使用GPU资源,本质是追求经济性。虚拟化GPU技术在私有环境部署,因为需求确定,可以根据预想好的使用场景来配置虚拟化比例,但在公共云场景就要解决既要满足所有用户的使用场景,又要保持调度系统的高效,不断降低成本,追求经济性。
最后是易用性,易用性表现在几个方面,一个是管理接口和使用习惯与其他ECS实例保持一致,另一个是APP在GPU实例中的使用场景和方式与其他常规GPU实例保持一致。这样用户就没有学习成本了。

轻量级GPU云服务器如何使用?

GPU实例的用法与普通弹性计算实例一样便捷,用户可以使用Web控制台或者OpenAPI方式配置和购买服务。用户在使用过程中可以完全掌控该实例,该实例在阿里云计算环境中运行,还可以配合其他云服务一起使用。当用户业务遇到业务高峰时可以在数分钟内扩展新的实例来适应业务增长。用户在虚拟化GPU服务的使用全过程中均可以享受到在线服务咨询和快速故障处理服务。

轻量级GPU云服务器的实例有哪些?

目前开放售卖基于NVIDIA Tesla P4的VGN5i实例,该实例提供八分之一到一比一的虚拟GPU加速器;
后面会上线基于NVIDIA Tesla T4的VGN6i实例,该实例提供十六分之一到一比一的虚拟GPU加速器;

轻量级GPU云服务器的适用场景有哪些?

轻量级GPU云服务器可以根据业务需求配置创建贴合业务所需计算资源的GPU云服务器实例,因此可以在每个轻量级GPU云服务器实例上仅运行一个计算业务负载,在业务峰值来临时,横向扩展某一个计算业务负载即可。这样的特性十分适合互联网业务中AI计算的批量部署以及云游戏,AR/VR在云端应用和深度学习的教学实验场景。

VGN5i的用户价值有哪些?

VGN5i的用户价值包括:降低批量部署GPU实例的成本,可以轻松实现快速弹性伸缩以及提高运维效率。
降低批量部署成本
在诸多图形计算和AI推理计算的场景中,用户通常并不要求单GPU实例的计算性能十分强大,而是更加关注业务在批量部署中的成本。小粒度的虚拟化GPU实例则更加合适这些场景,很好的平衡用户业务在批量部署中的成本需求。
实现快速弹性伸缩
拥有了小粒度的虚拟化GPU实例,用户不必再为了匹配较强的物理GPU资源而将服务部署成为复杂的胖服务节点,而是可以基于容器方式将有GPU计算需求的服务都解耦部署在不同的虚拟化GPU实例节点上。这样部署的瘦服务节点更加有利于快速弹性伸缩,在业务的任何时刻都可以应对自如,提高业务运维效率。
提高运维效率
使用小颗粒的虚拟化GPU实例进行瘦服务节点部署,使得服务环境配置和服务接口变得简单,使用不同的镜像即可部署大规模的AI应用而无需部署复杂的胖节点,提供运维效率,降低时间风险和成本。

直播观看地址:https://yq.aliyun.com/live/938
查看产品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·释放GPU计算新动力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品发布会频道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品发布·周刊:https://yq.aliyun.com/publication/36


本文作者:云攻略小攻

原文链接

本文为云栖社区原创内容,未经允许不得转载。

阿里云异构计算发布:轻量级GPU云服务器实例VGN5i的更多相关文章

  1. 单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例

    摘要: 阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在硅 ...

  2. 阿里云异构计算团队亮相英伟达2018 GTC大会

    摘要: 首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上海举办,弹性计算研究员伯瑜介绍了基于虚拟化.容器化编排技术的云计算操作系统PouchCont ...

  3. python web开发c6——阿里云上ubuntu+flask+gunicorn+nginx服务器部署(一)简单测试

    简述 Nginx在服务器部署中的作用 请求通过Nginx实现反向代理,将请求提交给代理服务器.本文中只用了一台服务器,所以是代理到本机. gunicorn的作用 作为服务器代码的容器.接收Nginx的 ...

  4. 阿里云一 第一篇:云服务器ECS

    阿里云(www.aliyun.com)创立于2009年,是全球领先的云计算及人工智能科技公司,为200多个国家和地区的企业.开发者和政府机构提供服务.截至2017年3月,阿里云付费云计算用户达87.4 ...

  5. 阿里云内网和公网NTP服务器和其他互联网基础服务时间同步服务器

    阿里云为云服务器ECS提供了内网NTP服务器,对于阿里云以外的设备,阿里云同时提供了 公网NTP服务器,供互联网上的设备使用. 内网和公网NTP服务器 以下为阿里云提供的内网和公网NTP服务器列表. ...

  6. Windows server 2008 布署FTP服务器实例(适用于阿里云)!

    Windows server 2008 布署FTP服务器实例(适用于阿里云). 1.打开管理.配置-用户-新建用户,如:ftp_user,并设置password.选择永只是期和password不能更改 ...

  7. 阿里云重磅发布RDS for SQL Server AlwaysOn集群版

    2018年双十一刚过,阿里云数据库发布RDS for SQL Server AlwaysOn集群版,这是业界除微软云SQL Database外,首家云计算公司基于SQL Server最新AlwaysO ...

  8. 阿里云PolarDB发布重大更新 支持Oracle等数据库一键迁移上云

    5月21日,阿里云PolarDB发布重大更新,提供传统数据库一键迁移上云能力,可以帮助企业将线下的MySQL.PostgreSQL和Oracle等数据库轻松上云,最快数小时内迁移完成.据估算,云上成本 ...

  9. 奇点云 x 阿里云 | 联合发布综合体数字化转型与数据创新解决方案

    2019年7月25日下午,在阿里云峰会上海站,奇点云入选阿里云首批联合解决方案合作伙伴,并联合发布了“综合体数字化转型与数据创新解决方案”,共同探索综合体的智能服务. 关于综合体的数字化转型,奇点云联 ...

随机推荐

  1. Java 23 种设计模式的分类和功能

    设计模式(Design Pattern)是前辈们对代码开发经验的总结,是解决特定问题的一系列套路.它不是语法规定,而是一套用来提高代码可复用性.可维护性.可读性.稳健性以及安全性的解决方案. 设计模式 ...

  2. CENTOS 7更换系统启动默认内核

    本文不再更新,可能存在内容过时的情况,实时更新请移步原文地址:CENTOS 7更换系统启动默认内核: 环境: CentOS Linux release 7.6.1810 (Core) : 1.查看当前 ...

  3. MySQL系列(十)--用户权限及远程访问

    本文基于MySQL8.0,记录一下完整的远程访问的过程,以及这个过程中可能遇到的问题,MySQL运行在阿里云服务器,操作系统:CentOS 7.6 64位 顺便说下,买服务器还是要双十二这种拉新活动再 ...

  4. 洛谷P5071 此时此刻的光辉

    2s512M. 解:先分解质因数.考虑按照质因数大小是否大于√分类. 大于的就是一个数颜色个数,莫队即可n√m. 小于的直接枚举质因数做前缀和然后O(1)查询.总时间复杂度n(√m + σ(√V)). ...

  5. mongodb集群搭建过程记录

    mongodb集群搭建花费比较长的时间,在此记录下过程,方便以后使用 一 软件环境 系统:ubuntu 18.04,mongodb 社区版4.2 https://docs.mongodb.com/ma ...

  6. loj2324 「清华集训 2017」小 Y 和二叉树

    https://loj.ac/problem/2324 太智障,一开始以为中序遍历的第一个点一定是一个叶子,想了个贪心.然而,手算了一下,第一个点都过不了啊. input 5 2 3 4 1 3 3 ...

  7. java学习补全 1

    CLASSPATH java执行命令时利用此路径加在需要的.class文件 字符串常量就是String 类的匿名对象 String类在直接复制的情况下只会保留一块堆内存 a="hhh&quo ...

  8. 【CodeVS】1792 分解质因数

    1792 分解质因数 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 青铜 Bronze 题目描述 Description 编写一个把整数N分解为质因数乘积的程序. 输入描述 Inp ...

  9. 【JZOJ5081】【GDSOI2017第三轮模拟】Travel Plan 背包问题+双指针+树的dfs序

    题面 100 注意到ban的只会是一个子树,所以我们把原树转化为dfs序列. 然后题目就转化为,询问一段ban的区间,之后的背包问题. 比赛的时候,我想到这里,于是就开始想区间合并,于是搞了线段树合并 ...

  10. Codeforces Round #192 (Div. 2) A. Cakeminator【二维字符数组/吃掉cake,并且是一行或者一列下去,但是该行/列必须没有草莓的存在】

    A. Cakeminator time limit per test 1 second memory limit per test 256 megabytes input standard input ...