日本联合研究团队发布 Fugaku-LLM——证明大型纯 CPU 超算也可用于大模型训练
相关:
https://mbd.baidu.com/newspage/data/landingsuper?context={"nid"%3A"news_10139665591063236146"}
研究团队表示其充分挖掘了富岳超算的性能,将矩阵乘法的计算速度提高了 6 倍,通信速度也提升了 3 倍,证明大型纯 CPU 超算也可用于大模型训练。
Fugaku-LLM 模型参数规模为 13B,是日本国内最大的大型语言模型。
其使用了 13824 个富岳超算节点在 3800 亿个 Token 上进行训练,其训练资料中 60% 为日语,其他 40% 包括英语、数学、代码等部分。
该模型的研究团队宣称 Fugaku-LLM 模型可在交流中自然使用日语敬语等特殊表达。
具体到测试成绩上,该模型在日语 MT-Bench 模型基准测试上的平均得分为 5.5,排在基于日本语料资源的开放模型首位,并在人文社科类别中得到了 9.18 的高分。
目前 Fugaku-LLM 模型已在 GitHub 和 Hugging Face 平台公开,外部研究人员和工程师可在遵守许可协议的前提下将该模型用于学术和商业目的。
个人观点:
这是一个有意义的尝试,要知道我们国家是没有国产的顶尖的成型的显卡及其配套软件的,虽然目前国产了一些软硬件,但是效果也是一直有限,但是我国在CPU领域的积累还是可以的,虽然在家用领域打不过英特尔和AMD,但是服务器领域也是够用的了,而且我国的CPU硬件的现有库存也是足够用的。如果使用大规模的CPU运算可以和显卡运算取得相似的运算结果和性能表现,那么这对于我们国家来说是多了一个战略储备,如果美国真的完全切断我国的高性能计算显卡的供货我们或许也可以选择CPU方式运行。
CPU方式运行最大的问题就是空间占地和耗能,如果真的到了被美国完全切断显卡供应,我们真的可以为每个超算中心单独配一个发电厂,至于场地嘛,东部沿海地区确实不好弄,不过搞到中西部地区却是没啥问题的,而且这样弄还可能带动当地经济发展呢。
其实,在我看来,最大的问题是造价、耗电、运算性能的扩张规律是否可以满足,可以这么理解这个scale规则,如果美国人用100个显卡干的事情我们可以用10000个CPU同样完成,那么这个事情我们是可以干的,但是如果美国的显卡的性能和运算需求是平方级别的增长呢,比如下一代的运算用新的显卡同样需要100个显卡,但是用旧型号的需要10000个显卡,那么我们用CPU是不是就要10000 * 10000个CPU了呢,可以这个问题主要还是看这个scale规则。不过不管怎么说,在万级的运算节点上进行运算还是我们国家能承受的,而且我也不认为显卡的发展会有这么大的速度,因此目前来看使用CPU运算替代显卡计算是可以作为战略储备的,这就和几十年前美国人用计算机算核物理和导弹弹道,但是我们国家依然使用手动的纸笔计算造出了核武器、导弹和人造卫星,当然这个过程是极为痛苦的,但是作为战略储备这条路是可以考虑的。
日本联合研究团队发布 Fugaku-LLM——证明大型纯 CPU 超算也可用于大模型训练的更多相关文章
- 布拉格捷克理工大学研究团队:Prisma进化版
原文链接 还记得 Prisma 吗?就是能把拍摄的照片转化为各种名画风格的修图软件,神经网络的深度学习后,想要波普还是梵高风的图片都不在话下. 现在,它的进化版本来了.这回是布拉格捷克理工大学的研究 ...
- spring Scurity终于测试OK了,复杂的功能还待深入研究!发布出来一起探讨吧!
spring Scurity终于测试OK了,复杂的功能还待深入研究!发布出来一起探讨吧! 就是因 为研究它,我的个天啦!头都大了一圈!还待修改完整版!我的目标不是每个项目拿到它就能使用!到时再说啦.. ...
- 深耕教育行业,RealSeer联合黑晶科技发布“AR超级教室”
近日,RealSeer开发者大赛见面会最后一站在北京举行,现场云集了不少AR创业者和开发者,各位大咖嘉宾都拿出干货与大家分享交流,公话未来AR行业发展趋势.现场RealMax联合黑晶科技发布了新品&q ...
- 微软IE团队发布《逃离XP》浏览器小游戏
微软IE团队今天发布了一个有趣的小游戏<逃离Windows XP>,这款游戏可以工作在所有现代浏览器下,简单的街机风格可以让你尽情对XP施展破坏欲.微软发布XP及提供支持服务已经史无前例地 ...
- HC大会,华为联合合作伙伴发布一站式物联网IoT开发工具小熊派BearPi
传统的物联网产品开发步骤复杂,涉及硬件开发.软件开发.云端开发等众多流程.而且产品的开发周期长.开发成本高.产品稳定性不佳.维护成本高.而物联网设备本身市场竞争激烈,价格低,设备更新迭代快,所以在保证 ...
- 转:Yelp开发团队发布内部网站设计指南
原文来自于:http://www.infoq.com/cn/news/2014/02/yelp-style-guide 近日,Yelp开发团队在博客发布消息:Yelp公开了内部网站设计指南.这份文档此 ...
- 转:Red Hat JBoss团队发布WildFly 8,全面支持Java EE 7并包含全新的嵌入式Web服务器
原文来自于:http://www.infoq.com/cn/news/2014/02/wildfly8-launch Red Hat的JBoss部门今天宣布WildFly 8正式发布.其前身是JBos ...
- Microsoft OneScript 团队发布的最新一版在 SQL Server Management Studio 中运行的脚本,可以帮助我们获取更详细的版本信息。
该脚本有以下几点: 1. SQL Server 的主要版本.服务级别和版本类别 2. 已安装SP包.累计更新CU,历史更新的QFE\ GDR 3. 推荐当前SP包可以安装最新的CU,并给到相关资源地地 ...
- Deep Learning 教程(斯坦福深度学习研究团队)
http://www.zhizihua.com/blog/post/602.html 说明:本教程将阐述无监督特征学习和深度学习的主要观点.通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为 ...
- 企业架构研究总结(40)——TOGAF架构能力框架之架构合同、成熟度模型和架构技能框架
5. 架构合同 架构合同是在开发团体和赞助者之间关于架构的交付物.质量以及适用目标的联合协议,并且通过有效的架构治理将会促使这些协议的成功施行.通过对合同的管理施行一个治理方法,如下几点将会得到保障: ...
随机推荐
- 《Android开发卷——ListView嵌套GridView(基础)》
listview嵌套gridview,最主要应该解决的问题是listview跟GridView的滑动问题.这个利用GridView是自定义的,就是让GridView内容有多大就显示多大,然后禁用他 ...
- Mysql性能优化(详解)
引言 今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情.当我们去设计数据库表结构,对操 ...
- php des加密用java解析不了 改个模式 加个IV php密钥/IV要求都是8位
php des加密用java解析不了 改个模式 加个IV php密钥/IV要求都是8位 php des加密用java解析不了 Wrong IV length: must be 8 bytes lon ...
- Excel poi 设置单元格格式 发现不可读内容 已修复的记录: /xl/worksheets/sheet1.xml 部分的问题(巨坑)
Excel poi 设置单元格格式 发现不可读内容 已修复的记录: /xl/worksheets/sheet1.xml 部分的问题(巨坑) 1.先设置值,后设置样式. 正确的是:先设置样式,后设置值. ...
- java rabbitmq模拟生产者,消费者demo
1.exchange类型,rabbitmq交换机类型 exchange类型fanout 扇形交换机,它会把所有发送到该交换机的消息路由到所有与该交换机绑定的队列中.direct 直连交换机,它会把消息 ...
- 使用 TensorRT C++ API 调用GPU加速部署 YOLOv10 实现 500FPS 推理速度——快到飞起!!
NVIDIA TensorRT 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量.YOLOv10是清华大学研究人员近期提出的一种实时目标 ...
- MoneyPrinterPlus:AI自动短视频生成工具-阿里云配置详解
MoneyPrinterPlus是一个很好的自动短视频生成工具,虽然是一个非常好的工具,但是有些小伙伴可能不太清楚具体应该如何配置才能让它跑起来. 因为MoneyPrinterPlus依赖一些具体的配 ...
- 解读MySQL 8.0数据字典的初始化与启动
本文分享自华为云社区<MySQL全文索引源码剖析之Insert语句执行过程>,作者:GaussDB 数据库. 本文主要介绍MySQL 8.0数据字典的基本概念和数据字典的初始化与启动加载的 ...
- 【资料分享】RK3568开发板规格书(4x ARM Cortex-A55(64bit),主频1.8GHz)
1 开发板简介 创龙科技TL3568-EVM是一款基于瑞芯微RK3568J/RK3568B2处理器设计的四核ARM Cortex-A55国产工业评估板,每核主频高达1.8GHz/2.0GHz,由核心板 ...
- win10 gvim
前言 现有的vscode太过于繁重,notepad++也不理想,顿来心思,想在win10配置一个gvim环境. 正文 安装gvim,从releases中找一个x64的.exe下载安装即可,安装完毕,把 ...