[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析

https://www.eet-china.com/mp/a219195.html

大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU即通用GPU，能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内，GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构设计时去掉了 GPU 为了图形处理而设计的加速硬件单元，保留了 GPU 的 SIMT架构和通用计算单元，通过 GPU 多条流水线的并行计算来实现大量计算。

所以基于 GPU 的图形任务无法直接运行在 GPGPU 上，但对于科学计算，AI 训练、推理任务（主要是矩阵运算）等通用计算类型的任务仍然保留了 GPU 的优势，即高效的搬运和运算有海量数据的重复性任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

本文来源于“AI算力产业链梳理：技术迭代突破瓶颈，AIGC场景驱动算力需求提升”。

下载链接：AI算力产业链梳理：技术迭代突破瓶颈，AIGC场景驱动算力需求提升《70+篇半导体行业“研究框架”合集》203份重磅ChatGPT专业报告《人工智能AI大模型技术合集》《AIGC政策、安全和未来发展》1、网信办发文，高度重视AIGC安全2、规范性政策或促进AIGC产业长期健康发展《46份智能网卡和DPU合集》医疗AI产业：AI大模型+医疗龙头公司商汤日日新大模型发布，目标瞄准AGI时代以昇思为基，盘古生态引领中国AI未来

EE芯视频推荐

视频：兆易创新CEO 程泰毅： “规模化”是半导体并购的背后逻辑，资深“专才”和“通才”是本土人才培养重心

周鸿祎：AI引领新工业革命阿里通义千问重磅发布，生态入口优势有望落地全域智能专用处理器比较分析（2022）AI芯片专利技术研发态势

随着超算等高并发性计算的需求不断提升，英伟达以推动 GPU 从专用计算芯片走向通用计算处理器为目标推出了GPGPU，并于 2006 年前瞻性发布并行编程模型 CUDA，以及对应工业标准的 OpenCL。CUDA 是英伟达的一种通用并行计算平台和编程模型，它通过利用图形处理器 (GPU)的处理能力，可大幅提升计算性能。CUDA 使英伟达的 GPU 能够执行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他语言编写的程序。在 CUDA 问世之前，对 GPU 编程必须要编写大量的底层语言代码；CUDA 可以让普通程序员可以利用 C 语言、C++等为 CUDA 架构编写程序在 GPU平台上进行大规模并行计算，在全球 GPGPU 开发市场占比已超过 80%。GPGPU 与 CUDA 组成的软硬件底座，构成了英伟达引领 AI 计算及数据中心领域的根基。

GPU 架构升级过程计算能力不断强化，Hopper 架构适用于高性能计算（HPC）和 AI 工作负载。英伟达在架构设计上，不断加强 GPU 的计算能力和能源效率。在英伟达 GPU 架构的演变中，从最先 Tesla 架构，分别经过 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至发展为今天的 Hopper 架构。

以 Pascal 架构为分界点，自 2016 年后英伟达逐步开始向深度学习方向演进。根据英伟达官网，Pascal 架构，与上一代 Maxwell 相比，神经网络训练速度提高 12 倍多，并将深度学习推理吞吐量提升了 7 倍。

Volta 架构，配备 640 个 Tensor 内核增强性能，可提供每秒超过 100 万亿次（TFLOPS）的深度学习性能，是上一代 Pascal 架构的 5 倍以上。

Turing 架构，配备全新 Tensor Core，每秒可提供高达 500 万亿次的张量运算。

Ampere架构，采用全新精度标准 Tensor Float 32（TF32），无需更改任何程序代码即可将AI 训练速度提升至 20 倍。

最新Hopper 架构是第一个真正异构加速平台，采用台积电 4nm 工艺，拥有超 800 亿晶体管，主要由 Hopper GPU、Grace CPU、NVLINK C2C 互联和 NVSwitch 交换芯片组成，根据英伟达官网介绍，其性能相较于上一代 Megatron 530B 拥有 30 倍 AI 推理速度的提升。

AMD 数据中心领域布局全面，形成 CPU+GPU+FPGA+DPU 产品矩阵。与英伟达相比，AMD 在服务器端 CPU 业务表现较好，根据 Passmark 数据显示，2021 年 Q4 AMD EPYC 霄龙系列在英特尔垄断下有所增长，占全球服务器 CPU 市场的 6%。依据 CPU 业务的优势，AMD 在研发 GPGPU 产品时推出 Infinity Fabric 技术，将 EPYC 霄龙系列 CPU 与 Instinct MI 系列 GPU 直接相连，实现一致的高速缓存，形成协同效应。此外，AMD 分别于 2022 年 2 月、4 月收购 Xilinx 和Pensando，补齐 FPGA 与 DPU 短板，全面进军数据中心领域。

软件方面，AMD 推出 ROCm 平台打造 CDNA 架构，但无法替代英伟达 CUDA 生态。AMD 最新的面向 GPGPU 架构为 CDNA 系列架构，CDNA 架构使用 ROCm 自主生态进行编写。AMD 的 ROCm 生态采取 HIP 编程模型，但 HIP 与 CUDA 的编程语法极为相似，开发者可以模仿 CUDA 的编程方式为 AMD 的 GPU 产品编程，从而在源代码层面上兼容 CUDA。所以从本质上来看，ROCm 生态只是借用了 CUDA 的技术，无法真正替代 CUDA 产生壁垒。

软硬件共同布局形成生态系统，造就英伟达核心技术壁垒。

 硬件端：基于 GPU、DPU 和 CPU 构建英伟达加速计算平台生态：

（1）主要产品 Tesla GPU 系列迭代速度快，从 2008 年至 2022 年，先后推出 8 种 GPU 架构，平均两年多推出新架构，半年推出新产品。超快的迭代速度使英伟达的 GPU 性能走在 AI 芯片行业前沿，引领人工智能计算领域发生变革。

（2）DPU 方面，英伟达于 2019 年战略性收购以色列超算以太网公司 Mellanox，利用其InfiniBand（无限带宽）技术设计出 Bluefield 系列 DPU 芯片，弥补其生态在数据交互方面的不足。InfiniBand 与以太网相同，是一种计算机网络通信标准，但它具有极高的吞吐量和极低的延迟，通常用于超级计算机的互联。英伟达的 Bluefield DPU 芯片可用于分担 CPU 的网络连接算力需求，从而提高云数据中心的效率，降低运营成本。

（3）CPU 方面，自主设计 Grace CPU 并推出 Grace Hopper 超级芯片，解决内存带宽瓶颈问题。采用 x86 CPU 的传统数据中心会受到 PCIe 总线规格的限制，CPU 到 GPU 的带宽较小，算效率受到影响；而 Grace Hopper 超级芯片提供自研 Grace CPU+GPU 相结合的一致内存模型，从而可以使用英伟达 NVLink-C2C 技术快速传输，其带宽是第 5 代 PCIe 带宽的 7 倍，极大提高了数据中心的运行性能。

相较于 A100 GPU，H100 性能再次大幅提升。在 H100 配备第四代 Tensor Core 和 Transformer引擎（FP8 精度），同上一代 A100 相比，AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先进的 4nm 工艺，H100 使用双精度 Tensor Core 的 FLOPS 提升 3 倍。

在算力需求快速增长的进程中，国产 GPU 正面临机遇与挑战并存的局面。目前，国产 GPU 厂商的核心架构多为自研，难度极高，需投入海量资金以及高昂的人力和时间成本。由于我国 GPU 行业起步较晚，缺乏相应生态，目前同国际一流厂商仍存在较大差距。在中美摩擦加剧、经济全球化逆行的背景下，以海光信息、天数智芯、壁仞科技和摩尔线程等为代表的国内 GPU 厂商进展迅速，国产 GPU 自主可控未来可期。

以Open AI的算力基础设施为例，芯片层面 GPGPU 的需求最为直接受益，其次是 CPU、AI 推理芯片、FPGA 等。AI 服务器市场的扩容，同步带动高速网卡、HBM、DRAM、NAND、PCB 等需求提升。

[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析的更多相关文章

玩深度学习选哪块英伟达 GPU？有性价比排名还不够！
本文來源地址:https://www.leiphone.com/news/201705/uo3MgYrFxgdyTRGR.html 与“传统” AI 算法相比,深度学习(DL)的计算性能要求,可以说完 ...
不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题
2006年,机器学习界泰斗Hinton,在Science上发表了一篇使用深度神经网络进行维数约简的论文 ,自此,神经网络再次走进人们的视野,进而引发了一场深度学习革命.深度学习之所以如此受关注,是因为 ...
【并行计算与CUDA开发】英伟达硬件加速编解码
硬件加速并行计算 OpenCL OpenCL API VS SDK 英伟达硬件编解码方案基于 OpenCL 的 API 自己写一个编解码器使用 SDK 中的编解码接口使用编码器对于 OpenC ...
【并行计算-CUDA开发】英伟达硬件解码器分析
这篇文章主要分析 NVCUVID 提供的解码器,里面提到的所有的源文件都可以在英伟达的 nvenc_sdk 中找到. 解码器的代码分析 SDK 中的 sample 文件夹下的 NvTranscoder ...
阿里云异构计算团队亮相英伟达2018 GTC大会
摘要: 首届云原生计算国际会议(KubeCon + CloudNativeCon,China,2018)在上海举办,弹性计算研究员伯瑜介绍了基于虚拟化.容器化编排技术的云计算操作系统PouchCont ...
Colab笔记本能用英伟达Tesla T4了，谷歌的羊毛薅到酸爽
谷歌出品的Colab笔记本,机器学习界薅羊毛神器,如今又有了新福利: 连英伟达最新一代机器学习GPU:Tesla T4都能免费蹭,穷苦羊毛党也顿时高端了起来. 英伟达的Tesla T4,是去年秋天才发 ...
英伟达TRTTorch
英伟达TRTTorch PyTorch JIT的提前(AOT)编译Ahead of Time (AOT) compiling for PyTorch JIT TRTorch是PyTorch / Tor ...
【系统硬件】英伟达安培卡 vs 老推理卡硬件参数对比
欢迎关注我的公众号 [极智视界],回复001获取Google编程规范 O_o >_< o_O O_o ~_~ o_O 本文分享一下英伟达安培卡 vs 老推理 ...
第一篇：CUDA 6.0 安装及配置( WIN7 64位 / 英伟达G卡 / VS2010 )
前言本文讲解如何在VS 2010开发平台中搭建CUDA开发环境. 当前配置: 系统:WIN7 64位开发平台:VS 2010 显卡:英伟达G卡 CUDA版本:6.0 若配置不同,请谨慎参考本文. ...
英伟达CUVID硬解，并通过FFmpeg读取文件
虽然FFmpeg本身有cuvid硬解,但是找不到什么好的资料,英伟达的SDK比较容易懂,参考FFmpeg源码,将NVIDIA VIDEO CODEC SDK的数据获取改为FFmpeg获取,弥补原生SD ...

随机推荐

JVM学习-Class文件结构
文章原文:https://gaoyubo.cn/blogs/844dc0e7.html 一.Class类文件的结构任何一个Class文件都对应着唯一的一个类或接口的定义信息. 但是反过来说,类或接口 ...
JavaScript异步编程1——Promise的初步使用
目录 1. 概述 2. 详论 3. 参考 1. 概述 Promise对象是ES6提出的的异步编程的规范.说到异步编程,就不得不说说同步和异步这两个概念. 从字面意思理解同步编程的话,似乎指的是两个任务 ...
Langchain-Chatchat项目：1.2-Baichuan2项目整体介绍
由百川智能推出的新一代开源大语言模型,采用2.6万亿Tokens的高质量语料训练,在多个权威的中文.英文和多语言的通用.领域benchmark上取得同尺寸最佳的效果,发布包含有7B.13B的Bas ...
详解SQL优化必备：并行执行框架和执行计划
摘要:在关系型数据库中,优化器是数据库的核心组件之一,由于一些列因素都会影响语句的执行,优化器综合权衡各个因素,在众多的执行计划中选择认为是最佳的执行计划. 本文分享自华为云社区<华为云Gaus ...
火山引擎数智平台最新直播活动：ByteHouse技术架构与最佳实践分享
数据的时效性,正深刻影响着企业的发展. 以大型半导体制造厂商为例,不同于常规工厂生产流水线,半导体制造通用的无人实验室生产模式高度依赖机械臂作业,且对整个生产调度链路中的精密度要求非常高,这背后主 ...
Hugging News #0918: Hub 加入分类整理功能、科普文本生成中的流式传输
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
OOALV总结
1.1ALV屏幕 1.1.1定义无CONTAINER屏幕 1.屏幕中可以不使用定制控制控件画范围,直接定义一个屏幕即可. "--------------------------------- ...
题解 CF1388A 【Captain Flint and Crew Recruitment】（思维、贪心）
AC代码: #include<bits/stdc++.h> using namespace std; void solve() { int n; cin >> n; if (n ...
vue tabBar导航栏设计实现5-最终版本
系列导航一.vue tabBar导航栏设计实现1-初步设计二.vue tabBar导航栏设计实现2-抽取tab-bar 三.vue tabBar导航栏设计实现3-进一步抽取tab-item 四.v ...
SpringCloud Alibaba Security安全认证
一. Security配置(auth认证中心) 代码地址 https://github.com/typ1805/blog-cloud Spring Security是一套安全框架,可以基于RBAC(基 ...

[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析

[转帖]大模型训练，英伟达Turing、Ampere和Hopper算力分析的更多相关文章

随机推荐

热门专题