GPU-笔记

GPU发展

PC时代随着图形操作系统的出现，大量需要 3D 图形运算的工具软件和游戏对于浮点运算的要求急剧升高，传统的 X86 CPU 处理器并不擅长这类任务，于是诞生了更擅长浮点运算的 GPU。在这类应用中，系统会把图形渲染等任务 offload 到 GPU 上去。

随着神经网络研究和应用的发展，GPU 中的浮点运算能力在这些领域的应用逐渐发展起来，英伟达敏感地抓住了市场机会，将其 GPU 在保留传统渲染能力的同时增加了对于通用计算和神经网络运算的能力，并称之为 GPGPU。

英伟达的 GPGPU 包含渲染以及神经网络（“NN”）运算。这种架构在同时需要两个能力的应用上会有一定的优势，但很显然对于技术积累要求也非常高。目前一些 AI 芯片初创公司所自称的 GPGPU 架构是指没有渲染的 NN 运算，而有一些声称做 GPU 的公司则是狭义的渲染 GPU，二者都不是通常英伟达所指的 GPGPU。英伟达由于有长年渲染 GPU 的技术积累，同时基于先发优势通过 CUDA 积累了生态优势，因此选择了 GPGPU 路线。而其他公司在这条路线上与其正面竞争是胜算很小的，即使国际知名公司（像英特尔和 AMD）在 GPGPU 市场与其竞争都有相当的难度。

然而，没有一个技术是完美的，由于 GPGPU 保留了大量神经网络运算所不需要的单元（即传统渲染），在单纯的神经网络运算上并不是最高效的，因此谷歌基于特定域架构（DSA）为自己的特定应用做了 TPU。DSA 架构给其他芯片公司带来了希望，包括 Intel、特斯拉等知名公司都开始在这条路线上发力。

集显和独显

在注重算力的服务器和注重便携性的移动端分别采用独立和集成GPU，而汽车、游戏主机、PC等主要采用独立+集成的GPU接入方式。

GPU发展模式

国内外CPU生产线产商
- 设计：Nvidia、AMD几乎垄断
- 设备、材料和EDA/IP：国内外差距较大
- 制造：只有台积电和三星有5nm制程工艺，且需要美国设备
- 封测：中国大陆、美国、中国台湾三分天下

基础

GPU 性能

GPU 的性能需要综合考虑两个指标：算力、通信带宽。

算力

算力的单位是 Flops，即每秒所执行的浮点数运算次数。浮点数运算次数就是小数的四则运算，可以简单理解为机器每秒可以做多少次小数的加减乘除。

通信带宽

因为 GPU 的内存大小是固定的，而训练使用的内存要超过单个 GPU 内存，所以就需要多个 GPU 并行计算，但并行计算就需要考虑数据交换带来的通信开销，通信开销越大，GPU 之间的数据交换速度就越快，模型训练就越快，这就是通信带宽。

下面是 H100、A100 和 4090 卡的性能对比：

神经网络算力计算

神经网络一般分为：前向计算和反向计算两个步骤。

前向计算

以提足球为例，前向传播可以理解为球员站在任意位置踢球，然后观察足球离球框的距离，前向传播就是这个观察过程，记录球员在将足球踢向球框时的各个参数。

反向传播

反向传播就是根据前向传播记录的参数，再回头来改进球员的踢球的位置、踢法等参数，确保下一次踢球能命中的概率大些。

权重更新就是球员改进踢足球的方式。

总结，一次前向传播需要 1 次计算（观察记录），一次反向传播需要 2 次计算（观察记录+权重更新），则完成一次神经网络的迭代需要对所有输入数据和模型参数进行 3 次计算。由于每次计算都是矩阵运算，每次矩阵运算需要 1 次乘法和加法，共计 2 次浮点运算，所以对于每个 token、每个模型参数，需要 3 * 2 flops = 6 次浮点数运算。*

则总计需要 6 * token 数 * 模型参数量 flops，这就是完成一个神经网络模型需要的算力资源的大致估计，从而可以计算出所需的 GPU 数量。

大模型算力计算

以上图为例，GPT3 的参数规模为 175B，训练 300B，采用稠密（Dense)模型，按照公式计算：6 * 175B * 300B = 3.15e23 flops，公开的 GPT3 的运算量为：3.1e23 flops，基本一致。

所需 GPU 卡数/时

已知 GPT3 的运算量为 3.1e23 flops ，再除以 312 flops （一张 A100 fp16 精度下的算力） * 46.2%（利用率） * 3600（一个小时对应的秒数） = 60.67 w 张 A100 /小时 = 2.53 w 张 A100 /天，若是 1000 张 A100 ，则训练需要大约一个月。

其他影响

除了算力，还需考虑计算时的内存和通信带宽，若是单卡，只需考虑训练总内存 = 模型内存 + 优化器内存 + 激活内存 + 梯度内存。

fp32 对应 4 个字节，fp16 对应 2 个字节，精度越大，所需内存越多。

通信带宽决定张量并行计算的速度，因为要多卡计算，卡之间要传递张量计算时的中间数值。

市场现状

最新最强算力芯片： H100，性能超过谷歌的 TPU。

H100 产能受限的原因：

H100芯片需要使用SK海力士的HBM内存，以及台积电的CoWoS封装，两者都因过于昂贵，此前并没能大规模市场化，预备产能并不多。

GPU操作

这是电脑上的显卡，就2G，我说显示很不清晰。

参考

GPU研究框架 ——行业深度报告（方正证券）
大模型所需算力笔记

GPU-笔记的更多相关文章

Caffe学习笔记2--Ubuntu 14.04 64bit 安装Caffe（GPU版本）
0.检查配置 1. VMWare上运行的Ubuntu,并不能支持真实的GPU(除了特定版本的VMWare和特定的GPU,要求条件严格,所以我在VMWare上搭建好了Caffe环境后,又重新在Windo ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
Udacity并行计算课程笔记-The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
学习笔记︱深度学习以及R中并行算法的应用（GPU）
笔记源于一次微课堂,由数据人网主办,英伟达高级工程师ParallerR原创.大牛的博客链接:http://www.parallelr.com/training/ 由于本人白痴,不能全部听懂,所以只能把 ...
【Udacity并行计算课程笔记】- Lesson 2 The GPU Hardware and Parallel Communication Patterns
本小节笔记大纲: 1.Communication patterns gather,scatter,stencil,transpose 2.GPU hardware & Programming ...
Unity3D学习笔记6——GPU实例化(1)
目录 1. 概述 2. 详论 3. 参考 1. 概述在之前的文章中说到,一种材质对应一次绘制调用的指令.即使是这种情况,两个三维物体使用同一种材质,但它们使用的材质参数不一样,那么最终仍然会造成两次 ...
Unity3D学习笔记7——GPU实例化(2)
目录 1. 概述 2. 详论 2.1. 实现 2.2. 解析 3. 参考 1. 概述在上一篇文章<Unity3D学习笔记6--GPU实例化(1)>详细介绍了Unity3d中GPU实例化的 ...
Unity3D学习笔记8——GPU实例化(3)
目录 1. 概述 2. 详论 2.1. 自动实例化 2.2. MaterialPropertyBlock 3. 参考 1. 概述在前两篇文章<Unity3D学习笔记6--GPU实例化(1)&g ...
caffe学习笔记（一），ubuntu14.04+GPU (用Pascal VOC2007训练数据，并测试)
把源代码跑起来了,将实验过程记录如下,用于新手入门. 今天和师兄师姐才跑通,来分享下心得.(预训练网络:ImageNet_model,训练集:PASCAL VOC2007, GPU) 首先,整个tra ...
虚幻引擎4笔记20160821 - 使用GPU粒子做雪花旋转镜头雪花忽有忽无的问题
在使用GPU进行雪花制作的时候,雪花总是在镜头旋转的时候,一会有,一会无的情况,后来下载别人的例子才知道,原来要给粒子加上边界,具体解决方法如下图

随机推荐

FPGA开发中的复位问题
一.为什么需要复位? 在FPGA上电时,需要对reg.fifo等器件进行复位,以确保系统处于已知的状态,同时可以通过复位清除系统的错误异常状态. 二.复位的方式从是否与时钟同步与否可以分为异步复位和 ...
根据docker镜像反推dockerfile
Dockerfile 是一个文本文件,其中包含我们为了构建 Docker 镜像而手动执行的所有命令. Docker 可以从 Dockerfile 中读取指令来自动构建镜像.我们可以使用 docker ...
快速量产低功耗 4G 定位方案？Air201 模组来搞定！
今天我们来了解的是Air201模组快速量产低功耗 4G 定位方案,希望大家有所收获. 寻寻觅觅低功耗4G定位方案? 一个Air201就够了! --定位准.体积小.功耗低,助力行业客户快速量产! 01 ...
【一步步开发AI运动小程序】四、小程序如何抽帧
随着人工智能技术的不断发展,阿里体育等IT大厂,推出的"乐动力"."天天跳绳"AI运动APP,让云上运动会.线上运动会.健身打卡.AI体育指导等概念空前火热.那 ...
linux下文件夹文件名称最大长度
今天突发奇想,如果创建一个文件,不写入内容,就如我们之前说的写入扩展属性能快速查找数据,但是在SSD下只能写4000个左右的字符,那么有没有更快速的方法存储这样的信息呢? 我想到可以同文件名来存储信息 ...
python之typing
typing介绍 Python是一门动态语言,很多时候我们可能不清楚函数参数类型或者返回值类型,很有可能导致一些类型没有指定方法,在写完代码一段时间后回过头看代码,很可能忘记了自己写的函数需要传什么参 ...
uni-app 横竖屏问题
前情 uni-app是我很喜欢的跨平台框架,它能开发小程序,H5,APP(安卓/iOS),对前端开发很友好,自带的IDE让开发体验也很棒,公司项目就是主推uni-app 坑位最近有用户反馈闪屏页也叫 ...
WebP图片使用踩坑
前情 WebP是一种同时提供了有损压缩与无损压缩(可逆压缩)的图片文件格式,最初在2010年发布,目标是减少文件大小,相较于传统的 PNG.JPG,甚至是动图 GIF 的格式,WebP 比它们的空间更 ...
【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数
在上一篇笔记([Python][爬虫系列][爬狼]001_urllib_get_获取响应结果页面代码 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt))我们将一个网页,解析为了文档(源码 ...
GitHub主页3D图表显示
效果如图,项目来源于 yoshi389111/github-profile-3d-contrib: This GitHub Action creates a GitHub contribution c ...