ChatGPT搅动AI芯片的“一池春水”
这是IC男奋斗史的第37篇原创
本文1520字,预计阅读4分钟。
ChatGPT是什么以及它的发展历程,相信各位老铁们都已经很清楚,杰哥便不再赘述。大家都知道,杰哥是做AI芯片的,ChatGPT与杰哥的职业发展可谓是息息相关。今天杰哥想研究一下ChatGPT与AI芯片之间的关系。
ChatGPT的算力成本
有数据表明,ChatGPT训练需要消耗的算力大约为3640PF-days。也就是说,每秒运算一千万亿次的话需要运行3640天。假设我们有一个500P算力 (每秒可以进行500千万亿次运算) 的超算中心,完成ChatGPT训练需要花费7到8天时间。如果我们有7到8个这样的超算中心并行运算,完成训练就只需要花费1天时间。
参考近期超算中心的建设投资规模,一个算力约500P的超算中心总投资约为30亿人民币。要支撑ChatGPT的运行,至少需要7到8个这样的数据中心。也就是说,对于ChatGPT来说光基础设施的投入就要两百亿以上。
作为一家创业公司,OpenAI选择的还是一种相对轻快的数据存储和运行方法——上云。目前ChatGPT的训练都是基于微软的超算基础设施完成的。微软的超算设施主要是由英伟达V100和A100 GPU组成的高带宽集群。后续应该会升级到性能更强大的英伟达H100 GPU计算集群。
2023年1月23日,微软宣布向OpenAI追加100亿美元的投资,以支持其在ChatGPT领域的开发与拓展。2月3日,谷歌向人工智能初创公司Anthropic AI投资约4亿美元,后者正在测试ChatGPT的竞品Claude。ChatGPT背后巨大的算力需求将会给高性能计算领域带来巨大的市场需求,这其中收益最大的当属以英伟达为代表的云端AI芯片企业。
ChatGPT背后的AI芯片
英伟达目前能支持ChatGPT运行的主要产品有V100、A100和T100三个系列。同样的,国产AI芯片也拥有训练能力,也可以支持ChatGPT的运行。代表产品有寒武纪思元290、壁仞科技BR100、燧原科技的邃思2.0以及百度昆仑芯2代等。
1 英伟达V100/A100/H100
V100:单颗芯片可以提供125TFLOPS的算力 (以FP16计算) ,可以使用新一代 NVIDIA NVLink技术以高达 300 GB/s 的速度连接多个 V100 GPU,从而打造出功能极其强大的计算服务器。
A100:单颗芯片可以提供624TFLOPS的算力 (以FP16计算) ,与 NVIDIA NVLink、NVIDIA NVSwitch、PCIe 4.0、NVIDIA InfiniBand和NVIDIA Magnum IO SDK 结合使用时,它能扩展到数千个A100 GPU。2048个A100 GPU可在一分钟内成规模地处理 BERT之类的训练工作负载,这是非常快速的解决问题速度。
H100:单颗芯片可以提供2000TFLOPS=2PFLOPS的算力 (以FP16计算) ,使用 NVIDIA NVLink Switch系统,可连接多达256个 H100来加速百亿亿级 (Exascale)工作负载,另外可通过专用的 Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。
2 寒武纪思元290
思元290:单颗芯片可以提供256TOPS (以INT16计算),寒武纪玄思1000智能加速器整机在2U机箱内集成了4颗思元290智能芯片,最大可实现1PetaOPS (以INT16计算) AI算力。目前寒武纪思元290芯片的下一代产品还在研发中,根据公开信息,算力预计与英伟达A100相当。
3 壁仞科技BR100
BR100:单颗芯片可以提供960TFLOPS(以FP16计算),最高可以实现8张卡全互连。其组成的性能强大的海玄服务器,可以实现单节点峰值浮点算力达到 8PFLOPS(每秒8000万亿次运算)。
4 燧原科技邃思2.0
邃思2.0:单颗芯片可以提供128TFLOPS(以FP16计算),云燧智算集群搭载多个邃思2.0芯片,在典型配置下每个单元可以实现8PFLOPS AI算力,并且支持按需横向扩容,可支持超千卡规模集群。
5 百度昆仑芯2代
昆仑芯2代:单颗芯片可以提供256TOPS@INT8或者128 TFLOPS@FP16的算力。搭载8个昆仑芯2代芯片的AI服务器,单机可提供高达1PFLOPS的AI算力和256G显存。基于多芯片间高速互联K-Link技术,可构建大规模并行计算集群、支持超大型模型训练和推理的需求。
总结下来,国产AI芯片与英伟达产品的差距在硬件性能上差距不大,基本上也就是半代到一代之间的差距。例如寒武纪和壁仞科技的最新款云端训练芯片思元590和BR100在算力都接近甚至超过英伟达A100,但是要落后于英伟达下一代产品H100。所以,国内发展类似于ChatGPT这样的机器人模型在硬件支持上是具备国产化的条件的。
国内高性能计算AI芯片的发展在硬件上与国外顶尖企业的差距其实并不大,反而在软件生态上的差距很大。国内AI芯片企业要真正达到国外巨头的水平,还有很长的路要走。
全文完。
ChatGPT搅动AI芯片的“一池春水”的更多相关文章
- 深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然
from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入 ...
- 深度 | AI芯片终极之战
深度 | AI芯片终极之战 https://mp.weixin.qq.com/s?__biz=MzA4MTQ4NjQzMw==&mid=2652712307&idx=1&sn= ...
- Nvidia和Google的AI芯片战火蔓延至边缘端
AI 的热潮还在持续,AI 的战火自然也在升级.英伟达作为这一波 AI 浪潮中最受关注的公司之一,在很大程度上影响着 AI 的战局.上周在美国举行的 GTC 2019 上,黄仁勋大篇幅介绍了英伟达在 ...
- 人工智能AI芯片与Maker创意接轨(下)
继「人工智能AI芯片与Maker创意接轨」的(上)篇中,认识了人工智能.深度学习,以及深度学习技术的应用,以及(中)篇对市面上AI芯片的类型及解决方案现况做了完整剖析后,系列文到了最后一篇,将带领各位 ...
- 人工智能AI芯片与Maker创意接轨 (中)
在人工智能AI芯片与Maker创意接轨(上)这篇文章中,介绍人工智能与深度学习,以及深度学习技术的应用,了解内部真实的作业原理,让我们能够跟上这波AI新浪潮.系列文来到了中篇,将详细介绍目前市面上的各 ...
- 人工智能AI芯片与Maker创意接轨 (上)
近几年来人工智能(Artificial Intelligence, AI)喴的震天价响,吃也要AI,穿也要AI,连上个厕所也要来个AI智能健康分析,生活周遭食衣住行育乐几乎无处不AI,彷佛已经来到科幻 ...
- 一文看懂AI芯片竞争五大维度
下一波大趋势和大红利从互联网+让位于人工智能+,已成业界共识.在AI的数据.算法和芯片之三剑客中,考虑到AI算法开源的发展趋势,数据与芯片将占据越来越重要的地位,而作为AI发展支柱的芯片更是AI业的竞 ...
- AI芯片:高性能卷积计算中的数据复用
随着深度学习的飞速发展,对处理器的性能要求也变得越来越高,随之涌现出了很多针对神经网络加速设计的AI芯片.卷积计算是神经网络中最重要的一类计算,本文分析了高性能卷积计算中的数据复用,这是AI芯片设计中 ...
- 一文解读AI芯片之间的战争 (转)
2015年的秋天,北京的雨水比往年要多些,温度却不算太冷.这一年里,年仅23岁的姚颂刚刚拿到清华大学的毕业证书;32岁的陈天石博士毕业后已在中科院计算所待了整整8年;而在芯片界摸爬滚打了14年的老将何 ...
- 阿里第一颗芯片问世,平头哥发布最强AI芯片含光800
阿里巴巴第一颗自研芯片正式问世.9月25日的杭州云栖大会上,达摩院院长张建锋现场展示了这款全球最强的AI芯片——含光800.在业界标准的ResNet-50测试中,含光800推理性能达到78563 IP ...
随机推荐
- 中文Markmap v2.0 现已上线,新增高效功能,老板再也留不住你下班的脚步!
介绍 Markmap.js 是一款开源项目,在 GitHub 上获得了超过 1.7 万个星的关注,它的主要功能是将 Markdown 文档可视化为思维导图. 在日常使用中,用户经常需要面对老板的&qu ...
- C#+Selenium+Nunit实现Web自动化demo
1.新建Nunit工程 步骤如下: 打开Rider选择图示选项 使用Nuget安装对应库 2.编写代码 代码如下: using NUnit.Framework; using OpenQA.Seleni ...
- 记一次 .NET某固高运动卡测试 卡慢分析
一:背景 1. 讲故事 年前有位朋友找到我,说他们的程序会偶发性卡慢 10s 钟,在某些组合下会正常,某些组合下就会出现问题,解释不了其中的原因,让我帮忙看下怎么回事?截图如下: private vo ...
- jmeter:CSV数据文件设置解析文件时中文乱码问题
设置数据文件时可以把数据可放入csv文件或txt文件中 但是,在性能测试中,尽量把数据存放于txt文件中,txt文件消耗的资源比csv文件少,而且txt文件比csv文件更方便更改数据. 文件编码一般使 ...
- 数据结构之位图(bitmap、RoaringMap)
参照资料: 1.https://www.bilibili.com/video/BV1u44y1g7Ps(bitmap) 2.https://b23.tv/cQtuFOx (RoaringMap) 3. ...
- 在 Spring Boot 2 中集成 JCasbin 并实现 ClassPath 模型文件加载
在 Spring Boot 2 中集成 JCasbin 并实现 ClassPath 模型文件加载 概述 在现代Web应用开发中,权限管理和认证是不可或缺的一部分.JCasbin 是一个强大的.高效的开 ...
- 7.9K star!跨平台开发从未如此简单,这个开源框架让APP开发效率飙升!
嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 Lynx 是一个革命性的跨平台开发框架,使用 TypeScript 开发即可同时构建 iOS ...
- 使用 Go-Spring 构建最小 Web API
前言 Go 语言以简单著称,一个很明显的例子就是只需要很少的代码即可实现一个最小的 Web API .Go-Spring 融合了 Go 简单和 Spring 自动配置的优点.本文通过几个实现最小 We ...
- Axure通用电商后台管理系高保真交互模板原型图附元件库4种后台模板风格
Axure通用电商后台管理交互模板原型图附元件库4种后台模板风格,原型中使用4种不同的布局框架,你可以根据自己的需求,去选中对应的菜单排版布局.另外,原型图中使用了较多的交互元件.母版.动态面板,基本 ...
- 浅谈鸿蒙跨平台开发框架ArkUI-X
之前写过使用uniapp的跨平台开发鸿蒙项目,今天分享一下开发体验更友好的跨平台开发框架ArkUI-X. ArkUI-X看起来像是鸿蒙官方的框架,在DevEco中就可以安装和使用,而且会ArkUI就可 ...