NVIDIA Tensor Cores解析

高性能计算机和人工智能前所未有的加速

Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。最新一代将这些加速功能扩展到各种工作负载。NVIDIA Tensor内核为所有工作负载提供了新的能力,从革命性的新精度Tensor Float 32(TF32)人工智能训练中的10倍加速到浮点64(FP64)高性能计算的2.5倍加速。

Revolutionary AI Training

当人工智能模型面临更高层次的挑战时,如精确的对话人工智能和深度推荐系统,它们的复杂性继续爆炸。像威震天这样的对话人工智能模型比像ResNet-50这样的图像分类模型大数百倍,也更复杂。以FP32精度训练这些大型模型可能需要几天甚至几周的时间。NVIDIA GPU中的张量磁芯提供了一个数量级的更高性能,降低了TF32和FP16等精度。并通过NVIDIA CUDA-X在本机框架中直接支持 库中,实现是自动的,在保持准确性的同时,大大缩短了训练的收敛时间。

Breakthrough AI Inference

一个好的人工智能推理加速器不仅要有很好的性能,还要有多功能性来加速不同的神经网络,同时还要有可编程性,使开发人员能够构建新的神经网络。高吞吐量的低延迟同时最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供无与伦比的多功能性和性能。

Advanced HPC

高性能混凝土是现代科学的一个基本支柱。为了揭示下一代的发现,科学家们利用模拟来更好地理解药物发现的复杂分子、潜在能源的物理学和大气数据,以便更好地预测和准备极端天气模式。NVIDIA Tensor内核提供了包括FP64在内的全方位精度,以加速所需的最高精度的科学计算。

NVIDIA HPC SDK是一套综合的编译器、库和工具,用于为NVIDIA平台开发HPC应用程序。

现代应用的加速

CUDA-X AI和CUDA-X HPC库与NVIDIA Tensor Core gpu无缝协作,加速跨多个域应用程序的开发和部署。

现代人工智能有可能扰乱许多行业,但如何利用它的力量是一个挑战。开发人工智能应用程序需要许多步骤:

数据处理、特征工程、机器学习、验证和部署,每一步都涉及处理大量数据和执行大量计算操作。CUDA-X人工智能提供了克服这一挑战所需的工具和技术。

A100 Tensor Cores

第三代

NVIDIA Tensor核心技术为人工智能带来了惊人的加速,将训练时间从几周缩短到几小时,并为推理提供了巨大的加速。NVIDIA安培体系结构提供了巨大的性能提升,并提供了新的精度,以覆盖研究人员所需的全谱-TF32、FP64、FP16、INT8和INT4加速和简化人工智能采用,并将NVIDIATensor Cores的功率扩展到高性能计算机。

Tensor Float 32

随着人工智能网络和数据集继续呈指数级增长,它们的计算需求也同样增长。较低精度的数学运算带来了巨大的性能加速,但它们历来需要一些代码更改。A100带来了一种新的精度,TF32,它的工作原理和FP32一样,同时为人工智能提供高达20倍的加速,而不需要任何代码更改。

图灵Tensor Cores

第二代

英伟达图灵 Tensor Cores心技术的特点是多精度计算,有效的人工智能推理。图灵Tensor Cores为深度学习训练和推理提供了一系列精度,从FP32到FP16到INT8,以及INT4,在性能上超过NVIDIA Pascal GPU。

Volta Tensor Cores

第一代

专为深度学习而设计的NVIDIA Volta第一代Tensor Cores 在FP16和FP32中使用混合精度矩阵乘法提供开创性的性能,高达12倍的高峰值teraFLOPS(TFLOPS)用于训练,6倍的高峰值TFLOPS用于NVIDIA Pascal上的推理。这一关键能力使Volta能够在Pascal上提供3倍的训练和推理性能加速。

NVIDIA赢得MLPerf推理基准

NVIDIA在新的MLPerf基准上发布了最快的结果,该基准测试了数据中心和边缘的人工智能推理工作负载的性能。新的业绩是在该公司今年早些时候公布的MLPerf基准业绩同样强劲的情况下发布的。

MLPerf的五个推理基准——应用于一系列的形状因子和四个推理场景——涵盖了诸如图像分类、对象检测和翻译等已建立的人工智能应用。

用例和基准是:

NVIDIA在以数据中心为中心的场景(服务器和脱机)的所有五个基准测试中都名列前茅,其中Turing gpu为每个处理器提供了商用项目中最高的性能。Xavier在以边缘为中心的场景(单流和多流)下提供了商用边缘和移动SOC中最高的性能。

NVIDIA的所有MLPerf结果都是使用NVIDIA TensorRT 6高性能深度学习推理软件实现的,该软件可以方便地优化和部署从数据中心到边缘的人工智能应用程序。新的TensorRT优化也可以作为GitHub存储库中的开放源代码使用。请参阅此开发人员博客中的完整结果和基准测试详细信息。

除了是唯一一家提交了MLPerf Inference v0.5所有五个基准测试的公司外,NVIDIA还在开放部门提交了ResNet-50v1.5的INT4实现。这个实现带来了59%的吞吐量增长,准确率损失小于1.1%。在这个博客中,我们将带您简要介绍我们的INT4提交,它来自NVIDIA早期的研究,用于评估图灵上INT4推理的性能和准确度。在此了解有关INT4精度的更多信息。

NVIDIA在扩展其推理平台的同时,今天还推出了Jetson Xavier NX,这是世界上最小、最强大的用于边缘机器人和嵌入式计算设备的AI超级计算机。

Jetson-Xavier NX模块与Jetson-Nano引脚兼容,基于NVIDIA的Xavier SoC的低功耗版本,该版本在边缘SoC中引领了最近的MLPerf推断0.5结果,为在边缘部署高要求的基于AI的工作负载提供了更高的性能,这些工作负载可能受到尺寸、重量、功率和成本等因素的限制。在此处了解有关新系统的更多信息,并了解如何在5个类别中的4个类别中占据榜首。

最强大的端到端人工智能和高性能数据中心平台

Tensor核心是完整NVIDIA数据中心解决方案的基本组成部分,该解决方案集成了NGC的硬件、网络、软件、库以及优化的AI模型和应用程序. 作为最强大的端到端人工智能和高性能计算机平台,它允许研究人员提供真实的结果,并将解决方案大规模部署到生产中。

NVIDIA Tensor Cores解析的更多相关文章

  1. 用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割

    用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...

  2. CUDA 9中张量核(Tensor Cores)编程

    CUDA 9中张量核(Tensor Cores)编程 Programming Tensor Cores in CUDA 9 一.概述 新的Volta GPU架构的一个重要特点是它的Tensor核,使T ...

  3. 在cuDNN中简化Tensor Ops

    在cuDNN中简化Tensor Ops 在Tesla V100 GPU中引入神经网络模型以来,神经网络模型已迅速利用NVIDIA Tensor Cores进行深度学习.例如,基于Tensor Core ...

  4. NVIDIA TensorRT 让您的人工智能更快!

    NVIDIA TensorRT 让您的人工智能更快! 英伟达TensorRT™是一种高性能深度学习推理优化器和运行时提供低延迟和高通量的深度学习推理的应用程序.使用TensorRT,您可以优化神经网络 ...

  5. NVIDIA GPU Volta架构简述

    NVIDIA GPU Volta架构简述 本文摘抄自英伟达Volta架构官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Ce ...

  6. NVIDIA GPU Turing架构简述

    NVIDIA GPU Turing架构简述 本文摘抄自Turing官方白皮书:https://www.nvidia.com/content/dam/en-zz/Solutions/design-vis ...

  7. NVIDIA GPUs上深度学习推荐模型的优化

    NVIDIA GPUs上深度学习推荐模型的优化 Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs 推荐系统帮助人在成倍增 ...

  8. NVIDIA安培架构

    NVIDIA安培架构 NVIDIA Ampere Architecture In-Depth 在2020年英伟达GTC主题演讲中,英伟达创始人兼首席执行官黄仁勋介绍了基于新英伟达安培GPU架构的新英伟 ...

  9. NVIDIA Turing Architecture架构设计(上)

    NVIDIA Turing Architecture架构设计(上) 在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA 已经将 GPU 发展成为许多计算密集型应用的世界领 ...

随机推荐

  1. C/C++ 手工实现IAT导入表注入劫持

    DLL注入有多种方式,今天介绍的这一种注入方式是通过修改导入表,增加一项导入DLL以及导入函数,我们知道当程序在被运行起来之前,其导入表中的导入DLL与导入函数会被递归读取加载到目标空间中,我们向导入 ...

  2. 【原创】ansible常用模块整理

    一.Ansible模块帮助 ansible-doc -l # 列出 Ansible 支持的模块 ansible-doc ping # 查看该模块帮助信息 二.远程命令模块 2.1command com ...

  3. hdu3006 状态压缩+位运算+hash(小想法题)

    题意:        给了n个集合,问你这n个集合可以组合出多少种集合,可以自己,也可以两个,也可以三个....也可以n个集合组在一起. 思路:       是个小想法题目,要用到二进制压缩,位运算, ...

  4. hdu1247 字典树或者hash

    题意:      给你一些串,问你哪些串是由其他两个串连接成的. 思路:        我用了两种方法,一个是hash,hash的时候用map实现的,第二种方法是字典树,字典树我们枚举每个一字符串,查 ...

  5. POJ3189二分最大流(枚举下界,二分宽度,最大流判断可行性)

    题意:       有n头猪,m个猪圈,每个猪圈都有一定的容量(就是最多能装多少只猪),然后每只猪对每个猪圈的喜好度不同(就是所有猪圈在每个猪心中都有一个排名),然后要求所有的猪都进猪圈,但是要求所有 ...

  6. 【js】Leetcode每日一题-叶子相似的树

    [js]Leetcode每日一题-叶子相似的树 [题目描述] 请考虑一棵二叉树上所有的叶子,这些叶子的值按从左到右的顺序排列形成一个 叶值序列 . 举个例子,如上图所示,给定一棵叶值序列为 (6, 7 ...

  7. Java前后端分离的认识

    1.原由 在网上查了关于前后端分离的资料,有所粗浅认识.记录下来,方便以后使用.以下均是个人看法,仅做参考.如有错误请指教,共同进步. 2.为什么前后端分离? ①.一个后台,可以让多种前台系统使用.后 ...

  8. SQL必学必会笔记 —— 基础篇

    基础篇 SQL语言按照功能划分 DDL(DataDefinitionLanguage),也就是数据定义语言,它用来定义我们的数据库对象,包括 数据库.数据表和列.通过使用DDL,可以创建,删除和修改数 ...

  9. 数据库调优(二)Inner Join Merge Join Hash Match

    T-SQL 的编码习惯以及规范,影响的是查询优化器对执行计划的选择 健壮的SQL语句,更稳定.更高效 SELECT 几个部分: - 查询的数据来自什么表 - 需要查询表中哪些字段 (尽量不使用类似于 ...

  10. [Linux] Shell 脚本实例(超实用)

    文件操作 为文件(test.sh)增加执行权限 chmod +x test.sh 列出当前文件夹下所有文件(每行输出一个) 1 #!/bin/bash 2 dir=`ls ./` 3 for i in ...