NVIDIA Tensor Cores解析

高性能计算机和人工智能前所未有的加速

Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。最新一代将这些加速功能扩展到各种工作负载。NVIDIA Tensor内核为所有工作负载提供了新的能力,从革命性的新精度Tensor Float 32(TF32)人工智能训练中的10倍加速到浮点64(FP64)高性能计算的2.5倍加速。

Revolutionary AI Training

当人工智能模型面临更高层次的挑战时,如精确的对话人工智能和深度推荐系统,它们的复杂性继续爆炸。像威震天这样的对话人工智能模型比像ResNet-50这样的图像分类模型大数百倍,也更复杂。以FP32精度训练这些大型模型可能需要几天甚至几周的时间。NVIDIA GPU中的张量磁芯提供了一个数量级的更高性能,降低了TF32和FP16等精度。并通过NVIDIA CUDA-X在本机框架中直接支持 库中,实现是自动的,在保持准确性的同时,大大缩短了训练的收敛时间。

Breakthrough AI Inference

一个好的人工智能推理加速器不仅要有很好的性能,还要有多功能性来加速不同的神经网络,同时还要有可编程性,使开发人员能够构建新的神经网络。高吞吐量的低延迟同时最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供无与伦比的多功能性和性能。

Advanced HPC

高性能混凝土是现代科学的一个基本支柱。为了揭示下一代的发现,科学家们利用模拟来更好地理解药物发现的复杂分子、潜在能源的物理学和大气数据,以便更好地预测和准备极端天气模式。NVIDIA Tensor内核提供了包括FP64在内的全方位精度,以加速所需的最高精度的科学计算。

NVIDIA HPC SDK是一套综合的编译器、库和工具,用于为NVIDIA平台开发HPC应用程序。

现代应用的加速

CUDA-X AI和CUDA-X HPC库与NVIDIA Tensor Core gpu无缝协作,加速跨多个域应用程序的开发和部署。

现代人工智能有可能扰乱许多行业,但如何利用它的力量是一个挑战。开发人工智能应用程序需要许多步骤:

数据处理、特征工程、机器学习、验证和部署,每一步都涉及处理大量数据和执行大量计算操作。CUDA-X人工智能提供了克服这一挑战所需的工具和技术。

A100 Tensor Cores

第三代

NVIDIA Tensor核心技术为人工智能带来了惊人的加速,将训练时间从几周缩短到几小时,并为推理提供了巨大的加速。NVIDIA安培体系结构提供了巨大的性能提升,并提供了新的精度,以覆盖研究人员所需的全谱-TF32、FP64、FP16、INT8和INT4加速和简化人工智能采用,并将NVIDIATensor Cores的功率扩展到高性能计算机。

Tensor Float 32

随着人工智能网络和数据集继续呈指数级增长,它们的计算需求也同样增长。较低精度的数学运算带来了巨大的性能加速,但它们历来需要一些代码更改。A100带来了一种新的精度,TF32,它的工作原理和FP32一样,同时为人工智能提供高达20倍的加速,而不需要任何代码更改。

图灵Tensor Cores

第二代

英伟达图灵 Tensor Cores心技术的特点是多精度计算,有效的人工智能推理。图灵Tensor Cores为深度学习训练和推理提供了一系列精度,从FP32到FP16到INT8,以及INT4,在性能上超过NVIDIA Pascal GPU。

Volta Tensor Cores

第一代

专为深度学习而设计的NVIDIA Volta第一代Tensor Cores 在FP16和FP32中使用混合精度矩阵乘法提供开创性的性能,高达12倍的高峰值teraFLOPS(TFLOPS)用于训练,6倍的高峰值TFLOPS用于NVIDIA Pascal上的推理。这一关键能力使Volta能够在Pascal上提供3倍的训练和推理性能加速。

NVIDIA赢得MLPerf推理基准

NVIDIA在新的MLPerf基准上发布了最快的结果,该基准测试了数据中心和边缘的人工智能推理工作负载的性能。新的业绩是在该公司今年早些时候公布的MLPerf基准业绩同样强劲的情况下发布的。

MLPerf的五个推理基准——应用于一系列的形状因子和四个推理场景——涵盖了诸如图像分类、对象检测和翻译等已建立的人工智能应用。

用例和基准是:

NVIDIA在以数据中心为中心的场景(服务器和脱机)的所有五个基准测试中都名列前茅,其中Turing gpu为每个处理器提供了商用项目中最高的性能。Xavier在以边缘为中心的场景(单流和多流)下提供了商用边缘和移动SOC中最高的性能。

NVIDIA的所有MLPerf结果都是使用NVIDIA TensorRT 6高性能深度学习推理软件实现的,该软件可以方便地优化和部署从数据中心到边缘的人工智能应用程序。新的TensorRT优化也可以作为GitHub存储库中的开放源代码使用。请参阅此开发人员博客中的完整结果和基准测试详细信息。

除了是唯一一家提交了MLPerf Inference v0.5所有五个基准测试的公司外,NVIDIA还在开放部门提交了ResNet-50v1.5的INT4实现。这个实现带来了59%的吞吐量增长,准确率损失小于1.1%。在这个博客中,我们将带您简要介绍我们的INT4提交,它来自NVIDIA早期的研究,用于评估图灵上INT4推理的性能和准确度。在此了解有关INT4精度的更多信息。

NVIDIA在扩展其推理平台的同时,今天还推出了Jetson Xavier NX,这是世界上最小、最强大的用于边缘机器人和嵌入式计算设备的AI超级计算机。

Jetson-Xavier NX模块与Jetson-Nano引脚兼容,基于NVIDIA的Xavier SoC的低功耗版本,该版本在边缘SoC中引领了最近的MLPerf推断0.5结果,为在边缘部署高要求的基于AI的工作负载提供了更高的性能,这些工作负载可能受到尺寸、重量、功率和成本等因素的限制。在此处了解有关新系统的更多信息,并了解如何在5个类别中的4个类别中占据榜首。

最强大的端到端人工智能和高性能数据中心平台

Tensor核心是完整NVIDIA数据中心解决方案的基本组成部分,该解决方案集成了NGC的硬件、网络、软件、库以及优化的AI模型和应用程序. 作为最强大的端到端人工智能和高性能计算机平台,它允许研究人员提供真实的结果,并将解决方案大规模部署到生产中。

NVIDIA Tensor Cores解析的更多相关文章

  1. 用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割

    用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...

  2. CUDA 9中张量核(Tensor Cores)编程

    CUDA 9中张量核(Tensor Cores)编程 Programming Tensor Cores in CUDA 9 一.概述 新的Volta GPU架构的一个重要特点是它的Tensor核,使T ...

  3. 在cuDNN中简化Tensor Ops

    在cuDNN中简化Tensor Ops 在Tesla V100 GPU中引入神经网络模型以来,神经网络模型已迅速利用NVIDIA Tensor Cores进行深度学习.例如,基于Tensor Core ...

  4. NVIDIA TensorRT 让您的人工智能更快!

    NVIDIA TensorRT 让您的人工智能更快! 英伟达TensorRT™是一种高性能深度学习推理优化器和运行时提供低延迟和高通量的深度学习推理的应用程序.使用TensorRT,您可以优化神经网络 ...

  5. NVIDIA GPU Volta架构简述

    NVIDIA GPU Volta架构简述 本文摘抄自英伟达Volta架构官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Ce ...

  6. NVIDIA GPU Turing架构简述

    NVIDIA GPU Turing架构简述 本文摘抄自Turing官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/design-vis ...

  7. NVIDIA GPUs上深度学习推荐模型的优化

    NVIDIA GPUs上深度学习推荐模型的优化 Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs 推荐系统帮助人在成倍增 ...

  8. NVIDIA安培架构

    NVIDIA安培架构 NVIDIA Ampere Architecture In-Depth 在2020年英伟达GTC主题演讲中,英伟达创始人兼首席执行官黄仁勋介绍了基于新英伟达安培GPU架构的新英伟 ...

  9. NVIDIA Turing Architecture架构设计(上)

    NVIDIA Turing Architecture架构设计(上) 在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA 已经将 GPU 发展成为许多计算密集型应用的世界领 ...

随机推荐

  1. Android动态调试so库JNI_Onload函数-----基于IDA实现

    之前看过吾爱破解论坛一个关于Android'逆向动态调试的经验总结帖,那个帖子写的很好,对Android的脱壳和破解很有帮助,之前我们老师在上课的时候也讲过集中调试的方法,但是现在不太实用.对吾爱破解 ...

  2. hdu3746 KMP的next数组应用,求项链首尾项链循环

    题意:       给你一个项链,问你最少加多少个珠子能满足整个项链是一个循环的项链(首尾相连) 思路:      KMP的简单应用只要了解next数组的意义就好说了,下面总结下  next在循环方面 ...

  3. LA3177长城守卫

    题意:      有n个人围成一个圈,每个人都有r[i]个礼物,任意两个相邻的人的礼物不能有重复的,问满足所有相邻不重复的最少礼物种数是多少?就是问最少多少种礼物能让任意相邻的两个人的礼物不重复. 思 ...

  4. Win64 驱动内核编程-4.内核里操作字符串

    内核里操作字符串 字符串本质上就是一段内存,之所以和内存使用分开讲,是因为内核里的字符串太有花 样了,细数下来竟然有 4 种字符串!这四种字符串,分别是:CHAR*.WCHAR*.ANSI_STRIN ...

  5. Android LayoutInflater.inflate源码解析

    一年多以前看过源码,感觉了解比较透彻了,长时间不经大脑思考,靠曾经总结的经验使用inflate方法,突然发现不知道什么时候忘记其中的原理了,上网查了一些资料,还各有不同,反而把我搞糊涂了,还是自己看源 ...

  6. x265编码命令

    CQP: #/bin/bash ./x265 --input FourPeople_1280x720_60.yuv --input-res 1280x720 --fps 60 --qp 40 --fr ...

  7. golang:TCP总结

    在TCP/IP协议中,"IP地址+TCP或UDP端口号"唯一标识网络通讯中的一个进程."IP地址+端口号"就对应一个socket.欲建立连接的两个进程各自有一个 ...

  8. [bug] docker: Error response from daemon: Conflict. The container name "/xx" is already in use

    改名.删除或重启容器 参考 https://www.cnblogs.com/youxin/p/12993816.html

  9. [Python] 安装 & 常用命令

    安装 http://www.xue51.com/soft/2301.html 常用命令 #查看pip版本$ pip --version#安装pip$ sudo apt install python3- ...

  10. [Web] 计算机网络课程(一)

    局域网 覆盖范围小,自己花钱买设备,自己单位维护 线长不超过100米,带宽固定(10M 100M 1000M) 星形结构,上层交换机口少,但每个口带宽高 广域网 距离远 如在家通过ADSL拨号上网,或 ...