ChatGPT搅动AI芯片的“一池春水”
这是IC男奋斗史的第37篇原创
本文1520字,预计阅读4分钟。
ChatGPT是什么以及它的发展历程,相信各位老铁们都已经很清楚,杰哥便不再赘述。大家都知道,杰哥是做AI芯片的,ChatGPT与杰哥的职业发展可谓是息息相关。今天杰哥想研究一下ChatGPT与AI芯片之间的关系。
ChatGPT的算力成本
有数据表明,ChatGPT训练需要消耗的算力大约为3640PF-days。也就是说,每秒运算一千万亿次的话需要运行3640天。假设我们有一个500P算力 (每秒可以进行500千万亿次运算) 的超算中心,完成ChatGPT训练需要花费7到8天时间。如果我们有7到8个这样的超算中心并行运算,完成训练就只需要花费1天时间。
参考近期超算中心的建设投资规模,一个算力约500P的超算中心总投资约为30亿人民币。要支撑ChatGPT的运行,至少需要7到8个这样的数据中心。也就是说,对于ChatGPT来说光基础设施的投入就要两百亿以上。
作为一家创业公司,OpenAI选择的还是一种相对轻快的数据存储和运行方法——上云。目前ChatGPT的训练都是基于微软的超算基础设施完成的。微软的超算设施主要是由英伟达V100和A100 GPU组成的高带宽集群。后续应该会升级到性能更强大的英伟达H100 GPU计算集群。
2023年1月23日,微软宣布向OpenAI追加100亿美元的投资,以支持其在ChatGPT领域的开发与拓展。2月3日,谷歌向人工智能初创公司Anthropic AI投资约4亿美元,后者正在测试ChatGPT的竞品Claude。ChatGPT背后巨大的算力需求将会给高性能计算领域带来巨大的市场需求,这其中收益最大的当属以英伟达为代表的云端AI芯片企业。
ChatGPT背后的AI芯片
英伟达目前能支持ChatGPT运行的主要产品有V100、A100和T100三个系列。同样的,国产AI芯片也拥有训练能力,也可以支持ChatGPT的运行。代表产品有寒武纪思元290、壁仞科技BR100、燧原科技的邃思2.0以及百度昆仑芯2代等。
1 英伟达V100/A100/H100
V100:单颗芯片可以提供125TFLOPS的算力 (以FP16计算) ,可以使用新一代 NVIDIA NVLink技术以高达 300 GB/s 的速度连接多个 V100 GPU,从而打造出功能极其强大的计算服务器。
A100:单颗芯片可以提供624TFLOPS的算力 (以FP16计算) ,与 NVIDIA NVLink、NVIDIA NVSwitch、PCIe 4.0、NVIDIA InfiniBand和NVIDIA Magnum IO SDK 结合使用时,它能扩展到数千个A100 GPU。2048个A100 GPU可在一分钟内成规模地处理 BERT之类的训练工作负载,这是非常快速的解决问题速度。
H100:单颗芯片可以提供2000TFLOPS=2PFLOPS的算力 (以FP16计算) ,使用 NVIDIA NVLink Switch系统,可连接多达256个 H100来加速百亿亿级 (Exascale)工作负载,另外可通过专用的 Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。
2 寒武纪思元290
思元290:单颗芯片可以提供256TOPS (以INT16计算),寒武纪玄思1000智能加速器整机在2U机箱内集成了4颗思元290智能芯片,最大可实现1PetaOPS (以INT16计算) AI算力。目前寒武纪思元290芯片的下一代产品还在研发中,根据公开信息,算力预计与英伟达A100相当。
3 壁仞科技BR100
BR100:单颗芯片可以提供960TFLOPS(以FP16计算),最高可以实现8张卡全互连。其组成的性能强大的海玄服务器,可以实现单节点峰值浮点算力达到 8PFLOPS(每秒8000万亿次运算)。
4 燧原科技邃思2.0
邃思2.0:单颗芯片可以提供128TFLOPS(以FP16计算),云燧智算集群搭载多个邃思2.0芯片,在典型配置下每个单元可以实现8PFLOPS AI算力,并且支持按需横向扩容,可支持超千卡规模集群。
5 百度昆仑芯2代
昆仑芯2代:单颗芯片可以提供256TOPS@INT8或者128 TFLOPS@FP16的算力。搭载8个昆仑芯2代芯片的AI服务器,单机可提供高达1PFLOPS的AI算力和256G显存。基于多芯片间高速互联K-Link技术,可构建大规模并行计算集群、支持超大型模型训练和推理的需求。
总结下来,国产AI芯片与英伟达产品的差距在硬件性能上差距不大,基本上也就是半代到一代之间的差距。例如寒武纪和壁仞科技的最新款云端训练芯片思元590和BR100在算力都接近甚至超过英伟达A100,但是要落后于英伟达下一代产品H100。所以,国内发展类似于ChatGPT这样的机器人模型在硬件支持上是具备国产化的条件的。
国内高性能计算AI芯片的发展在硬件上与国外顶尖企业的差距其实并不大,反而在软件生态上的差距很大。国内AI芯片企业要真正达到国外巨头的水平,还有很长的路要走。
全文完。
ChatGPT搅动AI芯片的“一池春水”的更多相关文章
- 深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然
from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入 ...
- 深度 | AI芯片终极之战
深度 | AI芯片终极之战 https://mp.weixin.qq.com/s?__biz=MzA4MTQ4NjQzMw==&mid=2652712307&idx=1&sn= ...
- Nvidia和Google的AI芯片战火蔓延至边缘端
AI 的热潮还在持续,AI 的战火自然也在升级.英伟达作为这一波 AI 浪潮中最受关注的公司之一,在很大程度上影响着 AI 的战局.上周在美国举行的 GTC 2019 上,黄仁勋大篇幅介绍了英伟达在 ...
- 人工智能AI芯片与Maker创意接轨(下)
继「人工智能AI芯片与Maker创意接轨」的(上)篇中,认识了人工智能.深度学习,以及深度学习技术的应用,以及(中)篇对市面上AI芯片的类型及解决方案现况做了完整剖析后,系列文到了最后一篇,将带领各位 ...
- 人工智能AI芯片与Maker创意接轨 (中)
在人工智能AI芯片与Maker创意接轨(上)这篇文章中,介绍人工智能与深度学习,以及深度学习技术的应用,了解内部真实的作业原理,让我们能够跟上这波AI新浪潮.系列文来到了中篇,将详细介绍目前市面上的各 ...
- 人工智能AI芯片与Maker创意接轨 (上)
近几年来人工智能(Artificial Intelligence, AI)喴的震天价响,吃也要AI,穿也要AI,连上个厕所也要来个AI智能健康分析,生活周遭食衣住行育乐几乎无处不AI,彷佛已经来到科幻 ...
- 一文看懂AI芯片竞争五大维度
下一波大趋势和大红利从互联网+让位于人工智能+,已成业界共识.在AI的数据.算法和芯片之三剑客中,考虑到AI算法开源的发展趋势,数据与芯片将占据越来越重要的地位,而作为AI发展支柱的芯片更是AI业的竞 ...
- AI芯片:高性能卷积计算中的数据复用
随着深度学习的飞速发展,对处理器的性能要求也变得越来越高,随之涌现出了很多针对神经网络加速设计的AI芯片.卷积计算是神经网络中最重要的一类计算,本文分析了高性能卷积计算中的数据复用,这是AI芯片设计中 ...
- 一文解读AI芯片之间的战争 (转)
2015年的秋天,北京的雨水比往年要多些,温度却不算太冷.这一年里,年仅23岁的姚颂刚刚拿到清华大学的毕业证书;32岁的陈天石博士毕业后已在中科院计算所待了整整8年;而在芯片界摸爬滚打了14年的老将何 ...
- 阿里第一颗芯片问世,平头哥发布最强AI芯片含光800
阿里巴巴第一颗自研芯片正式问世.9月25日的杭州云栖大会上,达摩院院长张建锋现场展示了这款全球最强的AI芯片——含光800.在业界标准的ResNet-50测试中,含光800推理性能达到78563 IP ...
随机推荐
- BUUCTF---childRSA(费马引理)
题目 点击查看代码 from random import choice from Crypto.Util.number import isPrime, sieve_base as primes fro ...
- [每日算法 - 华为机试] leetcode690. 员工的重要性
入口 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer.https://le ...
- DVWA靶场实战(八)——SQL Injection(Blind)
DVWA靶场实战(八) 八.SQL Injection(Blind): 1.漏洞原理: SQL Injection(Blind)全称为SQL注入之盲注,其实与正常的SQL大同小异,区别在于一般的注入攻 ...
- 在 CentOS 系统下搭建 ZeroTier Moon 服务器
安装 ZeroTier One: 首先,确保已经安装了 ZeroTier One.你可以按照上述说明,使用以下命令进行安装: sudo yum install zerotier-one 启动 Zero ...
- JLabel展示文本和图片--java进阶day03
1.JLabel 我们想要在窗体中展示图片或者文本是不能直接展示的,文本和图片必须要放在JLabel这个组件中 JLabel实质是窗体中的一块区域,创建了一个JLabel对象意味着在窗体中开辟了一块区 ...
- 【SpringCloud】Hystrix熔断器
Hystrix熔断器 概述 分布式系统面临的问题 分布式系统面临的问题 复杂分布式体系结构中的应用程序有数10个依赖关系,每个依赖关系在某些时候将不可避免地失败 服务雪崩 多个微服务之间调用的时候,假 ...
- 3. RabbitMQ 的(Hello World) 和 RabbitMQ 的(Work Queues)工作队列
3. RabbitMQ 的(Hello World) 和 RabbitMQ 的(Work Queues)工作队列 @ 目录 3. RabbitMQ 的(Hello World) 和 RabbitMQ ...
- 2021年扩展DevOps的6种方法
2021年扩展DevOps的6种方法 加强devops流程的自动化 为了满足快速.高质量应用程序交付的需求,现代软件团队需要一种超越常规性能测试的方法.在这里,以devops为中心的方法可以提供更快. ...
- Google发布A2A开源协议:“MCP+A2A”成未来标配?
就在刚刚Google Cloud Next 25大会上,谷歌重磅开源Agent2Agent(A2A)协议,这项被类比为"AI界的HTTP协议"的技术标准,彻底打破了智能体间的信息孤 ...
- 遍历表单数据,检查其中任意一项的方法(Get Matching Xpath Count指令的用法)
如上图,每次新增数据均显示在最上面,且这个表格没有自定义查询的功能. 这给校验添加数据是否成功增加了难度(常规方式是检查第一行数据) 本次案例的逻辑是 使用Get Matching Xpath Cou ...