GPU-笔记

GPU发展

PC时代随着图形操作系统的出现，大量需要 3D 图形运算的工具软件和游戏对于浮点运算的要求急剧升高，传统的 X86 CPU 处理器并不擅长这类任务，于是诞生了更擅长浮点运算的 GPU。在这类应用中，系统会把图形渲染等任务 offload 到 GPU 上去。

随着神经网络研究和应用的发展，GPU 中的浮点运算能力在这些领域的应用逐渐发展起来，英伟达敏感地抓住了市场机会，将其 GPU 在保留传统渲染能力的同时增加了对于通用计算和神经网络运算的能力，并称之为 GPGPU。

英伟达的 GPGPU 包含渲染以及神经网络（“NN”）运算。这种架构在同时需要两个能力的应用上会有一定的优势，但很显然对于技术积累要求也非常高。目前一些 AI 芯片初创公司所自称的 GPGPU 架构是指没有渲染的 NN 运算，而有一些声称做 GPU 的公司则是狭义的渲染 GPU，二者都不是通常英伟达所指的 GPGPU。英伟达由于有长年渲染 GPU 的技术积累，同时基于先发优势通过 CUDA 积累了生态优势，因此选择了 GPGPU 路线。而其他公司在这条路线上与其正面竞争是胜算很小的，即使国际知名公司（像英特尔和 AMD）在 GPGPU 市场与其竞争都有相当的难度。

然而，没有一个技术是完美的，由于 GPGPU 保留了大量神经网络运算所不需要的单元（即传统渲染），在单纯的神经网络运算上并不是最高效的，因此谷歌基于特定域架构（DSA）为自己的特定应用做了 TPU。DSA 架构给其他芯片公司带来了希望，包括 Intel、特斯拉等知名公司都开始在这条路线上发力。

集显和独显

在注重算力的服务器和注重便携性的移动端分别采用独立和集成GPU，而汽车、游戏主机、PC等主要采用独立+集成的GPU接入方式。

GPU发展模式

国内外CPU生产线产商
- 设计：Nvidia、AMD几乎垄断
- 设备、材料和EDA/IP：国内外差距较大
- 制造：只有台积电和三星有5nm制程工艺，且需要美国设备
- 封测：中国大陆、美国、中国台湾三分天下

基础

GPU 性能

GPU 的性能需要综合考虑两个指标：算力、通信带宽。

算力

算力的单位是 Flops，即每秒所执行的浮点数运算次数。浮点数运算次数就是小数的四则运算，可以简单理解为机器每秒可以做多少次小数的加减乘除。

通信带宽

因为 GPU 的内存大小是固定的，而训练使用的内存要超过单个 GPU 内存，所以就需要多个 GPU 并行计算，但并行计算就需要考虑数据交换带来的通信开销，通信开销越大，GPU 之间的数据交换速度就越快，模型训练就越快，这就是通信带宽。

下面是 H100、A100 和 4090 卡的性能对比：

神经网络算力计算

神经网络一般分为：前向计算和反向计算两个步骤。

前向计算

以提足球为例，前向传播可以理解为球员站在任意位置踢球，然后观察足球离球框的距离，前向传播就是这个观察过程，记录球员在将足球踢向球框时的各个参数。

反向传播

反向传播就是根据前向传播记录的参数，再回头来改进球员的踢球的位置、踢法等参数，确保下一次踢球能命中的概率大些。

权重更新就是球员改进踢足球的方式。

总结，一次前向传播需要 1 次计算（观察记录），一次反向传播需要 2 次计算（观察记录+权重更新），则完成一次神经网络的迭代需要对所有输入数据和模型参数进行 3 次计算。由于每次计算都是矩阵运算，每次矩阵运算需要 1 次乘法和加法，共计 2 次浮点运算，所以对于每个 token、每个模型参数，需要 3 * 2 flops = 6 次浮点数运算。*

则总计需要 6 * token 数 * 模型参数量 flops，这就是完成一个神经网络模型需要的算力资源的大致估计，从而可以计算出所需的 GPU 数量。

大模型算力计算

以上图为例，GPT3 的参数规模为 175B，训练 300B，采用稠密（Dense)模型，按照公式计算：6 * 175B * 300B = 3.15e23 flops，公开的 GPT3 的运算量为：3.1e23 flops，基本一致。

所需 GPU 卡数/时

已知 GPT3 的运算量为 3.1e23 flops ，再除以 312 flops （一张 A100 fp16 精度下的算力） * 46.2%（利用率） * 3600（一个小时对应的秒数） = 60.67 w 张 A100 /小时 = 2.53 w 张 A100 /天，若是 1000 张 A100 ，则训练需要大约一个月。

其他影响

除了算力，还需考虑计算时的内存和通信带宽，若是单卡，只需考虑训练总内存 = 模型内存 + 优化器内存 + 激活内存 + 梯度内存。

fp32 对应 4 个字节，fp16 对应 2 个字节，精度越大，所需内存越多。

通信带宽决定张量并行计算的速度，因为要多卡计算，卡之间要传递张量计算时的中间数值。

市场现状

最新最强算力芯片： H100，性能超过谷歌的 TPU。

H100 产能受限的原因：

H100芯片需要使用SK海力士的HBM内存，以及台积电的CoWoS封装，两者都因过于昂贵，此前并没能大规模市场化，预备产能并不多。

GPU操作

这是电脑上的显卡，就2G，我说显示很不清晰。

参考

GPU研究框架 ——行业深度报告（方正证券）
大模型所需算力笔记

GPU-笔记的更多相关文章

Caffe学习笔记2--Ubuntu 14.04 64bit 安装Caffe（GPU版本）
0.检查配置 1. VMWare上运行的Ubuntu,并不能支持真实的GPU(除了特定版本的VMWare和特定的GPU,要求条件严格,所以我在VMWare上搭建好了Caffe环境后,又重新在Windo ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
学习笔记︱深度学习以及R中并行算法的应用（GPU）
笔记源于一次微课堂,由数据人网主办,英伟达高级工程师ParallerR原创.大牛的博客链接:http://www.parallelr.com/training/ 由于本人白痴,不能全部听懂,所以只能把 ...
【Udacity并行计算课程笔记】- Lesson 2 The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Unity3D学习笔记6——GPU实例化(1)
目录 1. 概述 2. 详论 3. 参考 1. 概述在之前的文章中说到,一种材质对应一次绘制调用的指令.即使是这种情况,两个三维物体使用同一种材质,但它们使用的材质参数不一样,那么最终仍然会造成两次 ...
Unity3D学习笔记7——GPU实例化(2)
目录 1. 概述 2. 详论 2.1. 实现 2.2. 解析 3. 参考 1. 概述在上一篇文章<Unity3D学习笔记6--GPU实例化(1)>详细介绍了Unity3d中GPU实例化的 ...
Unity3D学习笔记8——GPU实例化(3)
目录 1. 概述 2. 详论 2.1. 自动实例化 2.2. MaterialPropertyBlock 3. 参考 1. 概述在前两篇文章<Unity3D学习笔记6--GPU实例化(1)&g ...
caffe学习笔记（一），ubuntu14.04+GPU (用Pascal VOC2007训练数据，并测试)
把源代码跑起来了,将实验过程记录如下,用于新手入门. 今天和师兄师姐才跑通,来分享下心得.(预训练网络:ImageNet_model,训练集:PASCAL VOC2007, GPU) 首先,整个tra ...
虚幻引擎4笔记20160821 - 使用GPU粒子做雪花旋转镜头雪花忽有忽无的问题
在使用GPU进行雪花制作的时候,雪花总是在镜头旋转的时候,一会有,一会无的情况,后来下载别人的例子才知道,原来要给粒子加上边界,具体解决方法如下图

随机推荐

PostgreSQL中将对象oid和对象名相互转换
PostgreSQL中将对象oid转为对象名使用pg的内部数据类型将对象oid转为对象名,可以简化一些系统视图的关联查询. 数据库类型转换对应类型的oid 可以用以下数据库类型转换对应类型的oid( ...
【Azure App Service】在App Service for Windows上验证能占用的内存最大值
问题描述在创建App Service服务的时候,根据定价层不同,内存使用的最大值也有不同.但在实际测试中,发现内存最大只能占用2GB左右, 而定价层中内存分配明明是大于2GB(比如B3定价层的内存为 ...
鸿蒙NEXT开发案例：二维码的生成与识别
[引言] 在本篇文章中,我们将探讨如何在鸿蒙NEXT平台上实现二维码的生成与识别功能.通过使用ArkUI组件库和相关的媒体库,我们将创建一个简单的应用程序,用户可以生成二维码并扫描识别. [环境准备] ...
callable结合FutureTask的多线程使用（免打扰模式）
import java.util.concurrent.Callable; import java.util.concurrent.ExecutionException; import java.ut ...
MongoDB之用户管理
注意点: 验证库: 建立用户时use到的库及用户的验证库,在使用用户时,要加上验证库才能登陆. 对于管理员用户,必须在admin下创建. 1. 建用户时,use到的库,就是此用户的验证库 2. 登录时 ...
python之日常开发常用库
1. 配置文件解析(configobj) pip install configobj 基本使用: 配置文件 [server] name = zbj port = 9000 [home] # 注释 ar ...
第十四届蓝桥杯省赛C++B组--接龙序列
接龙序列我们称序列中\(a_i\)的首位数字恰好是\(a_{i-1}\)的末尾数字,这样的序列叫做接龙序列,比如12 23 35 57,所有长度为1的整数序列都是接龙序列,现在给定一个长度为\(n\ ...
dotnet core微服务框架Jimu ~部署和调用演示
首先运行 consul 下载 consul 以开发模式运行 consul agent -dev 2. 调试用 Visual Studio 2022 IDE 打开项目: 右击解决方案-选择" ...
中电金信多模态鉴伪技术抵御AI造假威胁
AI换脸技术,属于深度伪造最常见方式之一,是一种利用人工智能生成逼真的虚假人脸图片或视频的技术.基于深度学习算法,可以将一个人的面部特征映射到另一个人的面部,创造出看似真实的伪造内容.近年来,以A ...
走向更强的 Literal 的时代
正如声明式编程的没落 - Inshua - 博客园分析,声明式编程由于不符合软件工程需要,实际上正在淘汰,但与此同时,它的特征被过程式编程吸收为了Literal,中文翻译字面量. 什么是 Lite ...