AI解决方案:边缘计算和GPU加速平台

一.适用于边缘 AI 的解决方案

AI 在边缘蓬勃发展。AI 和云原生应用程序、物联网及其数十亿的传感器以及 5G 网络现已使得在边缘大规模部署 AI 成为可能。但它需要一个可扩展的加速平台,能够实时推动决策,并让各个行业都能为行动点(商店、制造工厂、医院和智慧城市)提供自动化智能。这将人、企业和加速服务融合在一起,从而使世界变得“更小”、

更紧密。

适用于各行各业的边缘
AI 解决方案

卓越购物体验

借助 AI 驱动的见解,各地的大型零售商可让客户时刻满意。大型零售商已开发了多种 AI 策略,用于改善客户体验,并协助其员工完成日常运营。例如,智能化结账系统利用计算机视觉,确定所扫描的商品正是条形码标识的商品。智能视频分析 (IVA) 可帮助零售商了解购物者的偏好,并优化商店布局,从而打造更好的店内体验。借助 AI,零售商可以帮助员工确定何时需要补充商品,或者替换为更新鲜的商品。

工厂车间的新愿景

企业正在采用加速的边缘计算和 AI,将制造业转变为更安全、更高效的行业。例如,宝马公司在工厂车间安装检测摄像头,360 度全景观看装配线,从而将 AI 的强大性能带入边缘。这样可以获得实时见解,打造更安全、更精简的制造流程。此外,Procter &
Gamble 正在利用更快的边缘计算,协助其员工完成检测。通过分析数千小时的检测线镜头,该公司可以立即标记瑕疵,改善质量控制,并满足极高的安全标准。

NVIDIA A100 Tensor Core GPU

提高道路安全性

企业并不是转向加速边缘 AI 的唯一范例。爱荷华州迪比克等城市正在营造更安全的道路条件,并提供更快的应急服务。在迪比克市,数十个互连摄像头让您可以实时了解交通状况,检测到身陷危险的驾驶员、阻碍道路的障碍以及可能需要紧急帮助的人员。Numina 等公司也将 AI 引入边缘,以疏通交通流量,为驾驶员、骑行者和行人打造更安全的道路。

如何在边缘部署 AI

二.在各种规模上实现出色的加速

加速当今最重要的工作

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和高性能计算 (HPC),在各种规模上实现出色的加速,应对极其严峻的计算挑战。作为 NVIDIA 数据中心平台的引擎,A100 可以高效扩展,系统中可以集成数千个  A100 GPU,也可以利用 NVIDIA 多实例 GPU (MIG) 技术将每个 A100 划分割为七个独立的 GPU 实例,以加速各种规模的工作负载。第三代 Tensor Core 技术为各种工作负载的更多精度水平提供加速支持,缩短获取洞见以及产品上市时间。

功能强大的端到端 AI 和 HPC 数据中心平台

A100
是完整的 NVIDIA 数据中心解决方案堆栈的一部分,该解决方案堆栈包括来自 NGC (NVIDIA GPU Cloud) 的硬件、网络、软件、库以及优化的 AI 模型和应用程序构建模块。它为数据中心提供了强大的端到端 AI 和 HPC 平台,使研究人员能够大规模地交付真实的结果,并将解决方案大规模部署到生产环境中。

深度学习训练

当今的 AI 模型需要应对精准对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的计算能力和可扩展性。

NVIDIA
A100 的第三代 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比上一代高 10 倍之多的性能,并且无需更改代码,更能通过自动混合精度将性能进一步提升两倍。与第三代
NVIDIA
NVLink、NVIDIA NVSwitch、PCIe 4.0、Mellanox 和 Magnum IO 软件 SDK 结合使用时,系统中可以集成数千个 A100 GPU。这意味着,BERT 等大型 AI 模型只需在 A100 构成的集群上进行训练几十分钟,从而提供出色的性能和可扩展性。

NVIDIA
在深度学习训练方面的领先地位在  MLPerf 0.6
中得到了证明,这是 AI 训练的第一项行业级基准测试。

深度学习推理

A100 引入了突破性的新功能优化推理工作负载。它通过全系列精度(从 FP32、FP16、INT8 一直到 INT4)加速,实现了强大的多元化用途。MIG 技术支持多个网络同时在单个 A100 GPU 运行,从而优化计算资源的利用率。在 A100 其他推理性能提升的基础上,结构化稀疏支持将性能再提升两倍。

NVIDIA 提供市场领先的推理性能,在第一项专门针对推理性能的行业级基准测试  MLPerf
Inference 0.5
中全面制胜的结果充分证明了这一点。A100 则再将性能提升 10 倍,在这样的领先基础上进一步取得了发展。

高性能计算

为了点燃下一代新发现的火花,科学家们希望通过模拟更好地理解复杂分子结构以支持药物发现,通过模拟物理效果寻找潜在的新能源,通过模拟大气数据更好地预测极端天气状况并为其做准备。

A100 引入了双精度 Tensor Cores, 继用于 HPC 的 GPU 双精度计算技术推出至今,这是非常重要的里程碑。利用 A100,原本在 NVIDIA V100 Tensor Core GPU 上需要 10 小时的双精度模拟作业如今只要 4 小时就能完成。HPC 应用还可以利用 A100 的 Tensor Core,将单精度矩阵乘法运算的吞吐量提高 10 倍之多。

数据分析

客户需要能够分析和可视化庞大的数据集,并将其转化为宝贵洞见。但是,由于这些数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并利用第三代 NVLink 和 NVSwitch 1.6TB/s 的显存带宽和可扩展性,妥善应对这些庞大的工作负载。结合 Mellanox
InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和  NVIDIA
RAPIDS
NVIDIA 数据中心平台能够以出色的性能和效率加速这些大规模工作负载。

企业级利用率

A100 的 多实例 GPU (MIG) 功能使 GPU 加速的基础架构利用率大幅提升,达到前所未有的水平。MIG 支持将 A100 GPU 安全分割到多达七个独立实例中,这些 A100 GPU 实例可供多名用户使用,以加速应用和开发项目。此外,数据中心管理员可以利用基于虚拟化技术带来的管理、监控和操作方面的优势,发挥 NVIDIA 虚拟计算服务器 ( vComputeServer)
的动态迁移和多租户功能。A100 的 MIG 功能可以使基础架构管理员对其 GPU 加速的基础架构作标准化处理,同时以更精确的粒度提供 GPU 资源,从而为开发者提供正确的加速计算量,并确保其所有 GPU 资源得到充分利用。

规格

 

适用于 NVLink 的 A100

FP64
峰值性能

9.7
TF

FP64
Tensor Core
峰值性能

19.5
TF

FP32
峰值性能

19.5
TF

TF32
Tensor Core
峰值性能

156
TF | 312 TF*

BFLOAT16
Tensor Core
峰值性能

312
TF | 624 TF*

FP16
Tensor Core
峰值性能

312
TF | 624 TF*

INT8
Tensor Core
峰值性能

624
TOPS | 1,248 TOPS*

INT4
Tensor Core
峰值性能

1,248
TOPS | 2,496 TOPS*

GPU
显存

40
GB

GPU
显存带宽

1,555
GB/s

互联带宽

NVIDIA
NVLink 600 GB/s

PCIe Gen4 64 GB/s

多实例 GPU

3MIG
@ 10GB

5MIG @ 8GB

7MIG @ 5GB

外形尺寸

4/8
SXM on NVIDIA HGX A100

最大 TDP 功耗

400W

* 采用稀疏技术

AI解决方案:边缘计算和GPU加速平台的更多相关文章

  1. 边缘计算在物联网(IoT)当中的运用「物联网架构探索系列」

    这里记录的是我对物联网架构的学习.探索和思考,希望对你有所启发…… 边缘计算是指在靠近物或数据源头的一侧,采用网络.计算.存储.应用核心能力为一体的开放平台,就近提供最近端服务.其应用程序在边缘侧发起 ...

  2. 5G边缘计算:开源架起5G MEC生态发展新通路

    摘要:‍‍本文尝试从‍‍边缘计算的角度来阐述了‍‍为什么‍‍要把边缘计算当做一种新的生产关系来构建,‍‍以及如何用开源来构建这种新的生产关系. 5G推动新一轮工业革命 过去‍‍人类经历了三次工业革命, ...

  3. GPU加速计算

    GPU加速计算 NVIDIA A100 Tensor Core GPU 可针对 AI.数据分析和高性能计算 (HPC),在各种规模上实现出色的加速,应对极其严峻的计算挑战.作为 NVIDIA 数据中心 ...

  4. 深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然

    from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入 ...

  5. Polaristech 刘洋:基于 OpenResty/Kong 构建边缘计算平台

    2019 年 3 月 23 日,OpenResty 社区联合又拍云,举办 OpenResty × Open Talk 全国巡回沙龙·北京站,Polaristech 技术专家刘洋在活动上做了<基于 ...

  6. Rancher与ARM深化战略合作,“软硬结合”加速边缘计算时代

    时至今日,许多企业已将边缘计算列为战略目标,对于部分企业而言,边缘计算则已成为它们势在必行的部分.而随着对应用软件和硬件能力的需求不断增长,容器和Kubernetes已发展为边缘计算领域备受瞩目的一项 ...

  7. KubeEdge v0.2发布,全球首个K8S原生的边缘计算平台开放云端代码

    KubeEdge开源背景 KubeEdge在18年11月24日的上海KubeCon上宣布开源,技术圈曾掀起一阵讨论边缘计算的风潮,从此翻开了边缘计算和云计算联动的新篇章. KubeEdge即Kube+ ...

  8. 白话边缘计算解决方案 SuperEdge

    一.SuperEdge的定义 引用下SuperEdge开源官网的定义: SuperEdge is an open source container management system for edge ...

  9. 解读 --- 基于微软企业商务应用平台 (Microsoft Dynamics 365) 之上的人工智能 (AI) 解决方案

    9月25日微软今年一年一度的Ignite 2017在佛罗里达州奥兰多市还是如期开幕了.为啥这么说?因为9月初五级飓风厄玛(Hurricane Irma) 在佛罗里达州登陆,在当地造成了挺大的麻烦.在这 ...

随机推荐

  1. 指定pdf的格式

    爬虫实战[3]Python-如何将html转化为pdf(PdfKit)   前言 前面我们对博客园的文章进行了爬取,结果比较令人满意,可以一下子下载某个博主的所有文章了.但是,我们获取的只有文章中的文 ...

  2. 病毒木马查杀实战第009篇:QQ盗号木马之手动查杀

    前言 之前在<病毒木马查杀第002篇:熊猫烧香之手动查杀>中,我在不借助任何工具的情况下,基本实现了对于"熊猫烧香"病毒的查杀.但是毕竟"熊猫烧香" ...

  3. POJ2186 强联通

    题意:       有一群老牛,给你一些关系,a b表示牛a仰慕牛b,最后问你有多少个牛是被所有牛仰慕的. 思路:       假如这些仰慕关系不会出现环,那么当且仅当只有一只牛的出度为0的时候答案才 ...

  4. POJ3322滚箱子游戏(不错)

    题意:       讲的是一个游戏,就是在一个平面上滚动一个1*1*2的长方体的游戏,在本题里面的游戏规则是这样的: (1)      一开始给你箱子的状态,可能是横着也可能是竖着. (2)     ...

  5. UVA11388GCD LCM

    题意:       输入两个整数G,L,找出两个正整数a,b使得gcd(a ,b)=G,lcm(a ,b)=L,如果有多组解,输出最小的a的那组,如果没解,输出-1. 思路:       比较简单,如 ...

  6. JSON对象与字符串的互换——JSON.parse()和JSON.stringify()

    parse用于从一个字符串中解析出json对象,如 var str = '{"name":"huangxiaojian","age":&qu ...

  7. Day009 Arrays类

    Arrays类 数组的工具类java.util.Arrays 由于数组对象本身并没有什么方法可以供我们调用,但Api中提供了一个工具类Arrays供我们使用,从而可以对数据对象进行一些基本的操作. 查 ...

  8. php 获取某数组中出现次数最多的值(重复最多的值)与出现的次数

    1.$arr = array(7,7,8,9,10,10,10); $arr = array_count_values($arr);   // 统计数组中所有值出现的次数 arsort($arr);  ...

  9. c++学习的一些忠告(转载)

    c++学习的一些忠告 1.把C++当成一门新的语言学习(和C没啥关系!真的.): 2.看<Thinking In C++>,不要看<C++变成死相>: 3.看<The C ...

  10. 痞子衡嵌入式:在i.MXRT启动头FDCB里使能串行NOR Flash的Continuous read模式

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是在FDCB里使能串行NOR Flash的Continuous read模式. 前面关于串行Flash传输时序的文章 <Fast R ...