https://cloud.tencent.com/developer/article/1991011

千亿级参数AI大模型,竟然真的能获取代码了?!

一觉醒来,AI圈发生了一件轰动的事情——

Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3——

这意味着AI科学家们,终于可以“撬开”像GPT-3这样的大模型,看看里面到底有些什么秘密了。

之前GPT-3虽然效果惊艳但不够开放,源代码独家授权给了微软,连马斯克都批评过OpenAI不够open。

虽然论文就在那里,想要在此之上做进一步研究的话就得先复现一个出来再说。

而这一次,Meta从完整模型到训练代码、部署代码全部开放

有人甚至在官宣之前就摸到还没上传好的GitHub仓库去蹲点了。

还有人艾特OpenAI试图“引战”:

那么,Meta大模型有何特点、如何做到绿色低能耗,又为何要对外开放?一起来看看。

用16块V100就能跑起来

OPT全称Open Pre-trained Transformer Language Models,即“开放的预训练Transformer语言模型”。

相比GPT,名字直接把Generative换成了Open,可以说是非常内涵了。(手动狗头)

在论文中,Meta AI也不避讳宣称OPT-175B就是对标GPT-3,还暗示一波自己更环保:

Meta AI对此解释称,OPT就是奔着开放代码去的,为了让更多人研究大模型,环境配置肯定是越经济越好。

这不,运行时产生的碳足迹连GPT-3的1/7都不到,属实省能又高效。

为了方便研究人员“量力而行”,Meta AI搞出了各种大小的OPT模型,从125M参数到1750亿参数的不同大小模型都有。

其中,660亿参数的模型还在制作中,马上也会和大伙儿见面:

所以,最大的OPT-175B模型究竟有多高效,又是怎么做到的?

性能方面,Meta AI针对OPT-175B和GPT-3,用14个NLP任务进行了测试。

结果表明,无论是零样本学习(zero-shot)还是多样本学习(Multi-shot),OPT在这些任务上的平均精度都与GPT-3相差不大。其中虚线为GPT,实线为OPT:

左为零样本学习,右为多样本学习

再看具体任务。在对话任务中,采用无监督学习的方法训练OPT-175B,效果和监督学习训练的几类模型相近:

仇恨言论检测任务上的效果,更是完全超过Davinci版本的GPT-3模型(在GPT-3的四个版本中是效果最好的):

训练硬件方面,Meta AI用了992块英伟达A100 GPU(80GB)训练OPT,平均每块GPU的计算效率最高能达到147 TFLOP/s

这个效率,甚至比英伟达自家研究人员用起来还高,大约超过17%左右。

Meta AI透露称,一方面是采用了自家推出的一款名叫FSDP(Fully Sharded Data Parallel)的GPU内存节省工具,使得大规模训练的速度比传统方法快上5倍左右;

另一方面他们也借鉴了英伟达Megatron-LM模型的张量并行方法,将一个运算分布到多个处理器上同时进行。

甚至Meta AI表示,最低只需要16块英伟达V100 GPU,就能训练并部署OPT-175B模型。

已经有网友迫不及待地想要一试了:

当然,Meta AI也不避讳谈及OPT-175B大模型面临的一些问题,例如更容易生成“毒性语言”(例如使用有攻击性的词汇、语言歧视等):

研究人员表示,希望能在开放后,有更多人参与进来研究,并真正解决这些问题。

手把手教你复刻GPT-3

上面提到,这一次的OPT模型系列,300亿参数及以下的版本都是可以直接下载,660亿版还在路上。

只有完整的1750亿版需要额外填写一张申请表,包括工作单位、用途、相关发表工作等问题。

训练和部署的代码工具包metaseq发布在GitHub,并配有使用教程和文档。

作为著名的fairseq工具包的一个分支,metaseq专注于1750亿规模大模型,删除了训练和使用大模型不需要的部分。

还有不少开发者特别看重一个与模型和代码同时发布的“隐藏宝藏”——开发日志

里面详细记录了Meta团队在开发大模型过程中遇到的问题、解决的办法和决策的依据。

为自Pytorch诞生之前就存在的一系列机器学习研究中的痛点和困惑提供了大厂解法的一手资料。

如此的开放力度可以说是史无前例了,自然收到了不少赞美。

比如同样在做开源大模型项目的HuggingFace首席科学家Thomas Wolf。

不过针对1750亿参数版需要申请一事,还是有人表示怀疑。

我不是学者或从业者,他们会接受我的申请吗?

也有开发者建议Meta像OpenAI一样提供一些Demo,如果大家看到效果会更愿意参与研究改进,不然的话光是搭建开发环境就挺劝退的。

斯坦福大学基础模型研究中心主任、副教授Percy Liang对此发表了观点,将大模型的开放程度总结成4个层次,更高层次的开放能让研究者专注于更深的问题。

第一层论文开放,证明一些设想的可行性,并提供构建思路。

第二层API开放,允许研究人员探索和评估现有模型的能力(如推理能力)和限制(如偏见)

第三层模型权重开放和训练数据开放。允许研究人员逐步改进现有模型,开发更深入的可解释性技术和更有效的微调方法,让研究人员更好地理解训练数据在模型行为中的作用。

第四层计算能力开放,允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。

Percy Liang认为更高层次的开放同时也会带来更多风险。

也许是时候制定相关的社区规范了?

One More Thing

Meta这次论文的的共同一作有三人,其中Susan Zhang加入Meta之前正是来自OpenAI。

不过在OpenAI期间她并没有负责GPT-3的开发,而是参与了玩Dota的OpenAI Five强化学习项目,以及多模态大模型的研究。

项目地址: https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

论文地址: https://arxiv.org/abs/2205.01068

参考链接: [1]https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/ [2]https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/ [3]https://twitter.com/MetaAI/status/1521489996145958914

【转帖】千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布的更多相关文章

  1. 千亿参数开源大模型 BLOOM 背后的技术

    假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...

  2. 单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

    [背景介绍] 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据 ...

  3. DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

    DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述 近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...

  4. [NewLife.XCode]分表分库(百亿级大数据存储)

    NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量 ...

  5. K2签约龙光地产,为集团实现“千亿目标”保驾护航

    随着房地产行业步入成熟期,行业整合及转型速度变快,房企要在数字经济的背景下实现稳步发展,企业信息化建设是其中的重要一环.此次龙光地产选择与K2携手,用统一流程平台为集团保驾护航,向实现千亿目标迈进. ...

  6. AI反欺诈:千亿的蓝海,烫手的山芋|甲子光年

    不久前,一家业界领先的机器学习公司告诉「甲子光年」:常有客户带着迫切的反欺诈需求主动找来,但是,我们不敢接. 难点何在? 作者|晕倒羊 编辑|甲小姐 设计|孙佳栋 生死欺诈 企业越急速发展,越容易产生 ...

  7. 转载:四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍

    四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍 时间 2016-07-22 16:57:00 炼数成金 相似文章 (5) 原文  http://www.dataguru.cn/ ...

  8. 千亿级平台技术架构:为了支撑高并发,我把身份证存到了JS里

    @ 目录 一.用户信息安全规范 1.1 ​用户信息.敏感信息定义及判断依据 1.1.1 个人信息 1.1.2 个人敏感信息 1.2 ​用户信息存储的注意事项 二.​框架技术实现 2.1 用户敏感信息自 ...

  9. Hive千亿级数据倾斜解决方案

    数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显,这里要注意本篇文章的标题-"千亿级数据",为什么说 ...

  10. 挑战海量数据:基于Apache DolphinScheduler对千亿级数据应用实践

    点亮 ️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler 精彩回顾 近期,初灵科技的大数据开发工程师钟霈合在社区活动的线 ...

随机推荐

  1. 【一行代码秒上云】Serverless六步构建全栈网站

    摘要:Serverless怎么玩?听一千道一万不如亲手来实践,跟着我们以华为云Serverless实践FunctionGraph来免费体验一下六步构建全栈网站吧 前言: Serverless怎么玩?听 ...

  2. 云图说|ROMA演进史:一个ROMA与应用之间不得不说的故事

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要: 华为云ROMA源 ...

  3. vue2升级vue3:Vue2/3插槽——vue3的jsx组件插槽slot怎么处理

    插槽的作用 让用户可以拓展组件,去更好地复用组件和对其做定制化处理. Vue 实现了一套内容分发的 API,将<slot>元素作为承载分发内容的出口,这是vue文档上的说明.具体来说,sl ...

  4. Preload与Prefetch的区别以及webpack项目中如何优化

    preload 与prefetch 的区别 preload 是一个声明式 fetch,可以强制浏览器在不阻塞 document 的 onload 事件的情况下请求资源. preload 顾名思义就是一 ...

  5. centos8 新增ssh自定义端口与屏蔽默认22端口。

    第一步:修改SSH配置文件(注意是sshd_config而不是ssh_config,多了个d) vim /etc/ssh/sshd_config找到"#Port 22",这一行直接 ...

  6. 实用指南:手把手搭建坚若磐石的DevSecOps框架

    长期以来,安全问题一直被当作软件开发流程中的最后一步.开发者贡献可以实现软件特性的代码,但只在开发生命周期的测试和部署阶段考虑安全问题.随着盗版.恶意软件及网络犯罪事件飙升,开发流程需要做出改变. 开 ...

  7. 火山引擎DataLeap数据调度实例的 DAG 优化方案 (二):功能设计

    针对上面存在的问题以及对需求的分析,我们可以进行如下的功能实现与设计: 首先是渲染方案的替换,将 svg 的渲染方案替换成 canvas 渲染,通过减少页面中 DOM 的数量,提高前端渲染性能. 其次 ...

  8. PPT 渐变入门

    光圈 线性渐变 路径渐变 案例 一个圆 渐变 二个圆 渐变叠加 加阴影 阴影 金属字体

  9. Python 批量制作缩略图

    本来想网上下个软件处理下的,给我加了水印,不然就让我升会员,程序员都是薅人家羊毛,哪能被人家薅羊毛 1. 安装组件 (指定国内源,速度快些),带上版本号,最新版本会卡在 XXX(PEP 517) 上. ...

  10. "error LNK2019: 无法解析的外部符号"原因分析

    1.工程属性选择错误 问题: 分析: 新建的是控制台程序,但编译器和链接器却用的是windows子系统 解决办法: WINDOWS和CONSOLE选择 右键工程名, 打开属性,依次找到以下路径: 然后 ...