Meta AI新发布的超大规模语言模型-OPT-175B
Meta AI在2022年5月3日新发布的OPT-175B模型,该模型是现阶段第一个模型参数超过千亿级别的开放模型,其次该模型与GPT-3相比,更加开放及便于访问。
具体开放性表现在如下几个方面:
1. 论文: 提供了某些能力是可能的存在证明,并揭示可以建立在此基础上的一般思想
2. API访问:允许研究人员探索和评估现有基础模型的能力(例如,推理)和局限性(例如,偏差)
3. 模型权重:允许研究人员逐步改进现有模型,开发更深入的可解释技术和更有效的微调方法
4. 训练数据:让研究人员更好地理解训练数据在模型行为中的作用——例如,情境学习从何而来?(不过,有些数据可能很难公布。)
5. 计算:允许研究人员尝试新的架构,培训目标/程序,进行数据集消融,并在不同领域开发全新的模型。这具有最大的理解和改进潜力,但也相当昂贵。
项目地址:https://github.com/facebookresearch/metaseq
论文地址:https://arxiv.org/pdf/2205.01068.pdf
请求访问权限地址:https://forms.gle/dag8g7nKiR4o4VZq5
以下为Meta AI官网的发布声明。

大型语言模型--具有超过 1000 亿个参数的自然语言处理 (NLP) 系统——在过去几年中改变了 NLP 和 AI 研究。基于大规模不同体量的文本训练,这些模型在生成创意文本、解决基本数学问题、回答阅读理解问题等方面表现出惊人能力。虽然在某些情况下,公众可以通过付费 API 与这些模型进行交互,但全部的研究访问权限仍然仅限于少数资源丰富的实验室中。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高其稳健性和减轻类似偏见和危害性等已知问题的努力的进展。
根据 Meta AI 对开放科学的承诺,我们正在分享 Open Pretrained Transformer (OPT-175B),一种在公开可用的数据集训练的具有 1750 亿个参数的语言模型,以允许更多的社区参与了解这项基础新技术。对于首次实现这种规模的语言技术系统,此次发布包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。该模型的访问权限将授予学术研究者,即隶属于政府、民间社会和学术界组织的人员,以及世界各地的工业研究实验室。
我们相信整个人工智能社区——学术研究人员、民间社会、政策制定者和工业界——必须共同努力,围绕负责任的人工智能制定明确的指导方针,特别是负责任的大型语言模型,因为它们在许多下游语言应用中处于中心地位。人工智能社区中更广泛的部分需要访问这些模型,以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布,我们希望增加定义此类技术伦理考虑的话语多样性。
OPT-175B 的责任发布
根据人工智能伙伴关系为研究人员制定的出版指南,以及NIST在2022年3月概述的治理指南(第3.4节),我们发布了所有记录开发过程的笔记,包括详细描述日常训练过程的完整日志,以便其他研究人员可以更容易地在我们的工作基础上进行构建。此外,这些细节揭示了用于训练OPT-175B的计算量,以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销。
我们正在共享 OPT-175B,以及仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库,以增加这些模型的可访问性,专门用于研究目的,并为分析根植于可量化的潜在危害提供基础通用共享模型上的指标。我们还全面发布了一套更小规模的基线模型,在相同的数据集上进行训练,并使用与 OPT-175B 类似的配置,以使研究人员能够单独研究规模的影响。这些小规模模型的参数计数包括1.25亿、3.5亿、13亿、27亿、67亿、130亿和300亿(660亿即将发布)。
负责任的计算
人工智能研究的最新进展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹,但大多数不包括与实验的研发阶段相关的计算成本,在某些情况下,这可能比训练最终模型的资源密集型多一个数量级。
我们在开发OPT-175B时考虑到了能源效率,成功地训练了这种规模的模型,只使用了GPT-3的1/7的碳足迹。这是通过结合Meta的开源完全分片数据并行(FSDP) API和NVIDIA的张量并行抽象在Megetron-LM中实现的。我们在NVIDIA的80gb A100 GPU上实现了约147 TFLOP/s/GPU的利用率,比NVIDIA研究人员公布的在类似硬件上的利用率大约高17%。
通过共享这些基线和代码库来有效地训练175B模型,我们有机会减少我们集体的环境足迹,同时也允许以一致的方式测量该领域的新结果和进展。
通过开放合作推动研究向前发展
为了推进人工智能研究,更广泛的科学界必须能够与前沿模型合作,有效地探索它们的潜力,同时也探索它们的弱点。与我们之前的开放科学计划一样,如图像相似性挑战、深度造假检测挑战和可恶的表情包挑战,Meta AI认为,跨研究机构的合作对负责任的人工智能技术的发展至关重要。
虽然在大型语言模型领域有许多令人兴奋的发展,但这些模型所带来的限制和风险仍然没有被很好地理解。如果不能直接使用这些模型,研究人员为可能的危害设计检测和缓解策略的能力也有限,这使得检测和缓解工作只掌握在那些有足够资金使用这种规模模型的人手中。我们希望OPT-175B将为大型语言模型创建的前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域的大型语言模型的开发增加前所未有的透明度和开放性。
在这里访问开放源代码和小规模预训练模型,在这里请求访问OPT-175B,在这里阅读论文。
预训练模型均根据OPT-175B许可协议进行许可。
Meta AI新发布的超大规模语言模型-OPT-175B的更多相关文章
- 在IIS上新发布的网站,样式与js资源文件加载不到(资源文件和网页同一个域名下)
在IIS上新发布的网站,网站能打开,但样式与js资源文件加载不到(资源文件和网页是同一个域名下,例如:网页www.xxx.com/index.aspx,图片www.xxx.com/pic.png). ...
- liunx新装tomcat之后,tomcat不能识别新发布的项目
遇到的问题 在liunx新装tomcat之后,发布之前的项目,发现在tomcat不能识别新发布的项目,打成war包,还是直接把项目拷贝过去都不行. 环境:虚拟机:VMware 主机系统:win10 虚 ...
- 安卓新发布机制----app bundle
Android App Bundle是一种改进的应用程序打包方式,能大幅度减少应用体积 unity可以直接导出appbundle,只需要在导出的时候勾选 但是通常项目有sdk离不开java端,我这里是 ...
- 从华为新发布的WeAutomate 3.0,看RPA如何在政企领域落地生长
文/王吉伟 11月11日,是电商的重要节日.即便今年双11的气氛不如往年浓烈,人们依旧关注双11厂商战报,关注购物车里的商品有没有降价. 当然在RPA领域,大家除了关注双11的商品价格,更关注华为RP ...
- HMS Core Discovery第16期回顾|与虎墩一起,玩转AI新“声”态
HMS Core 在AI领域最新的技术能力有哪些?本期Discovery直播以<与虎墩一起,玩转AI新"声"态>为主题,邀请了HMS Core 机器学习服务产品经理.机 ...
- 昇腾AI新技能,还能预防猪生病?
摘要:日前,由华为与武汉伯生科技基于昇腾AI合作研发的"思符(SiFold)蛋白质结构预测平台"正式推出,并成功应用于国药集团动物保健股份有限公司的猪圆环病毒疫苗研发中. 本文分享 ...
- Meta AI 开源万物可分割 AI 模型(SAM)
开始 4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型).据介绍,该模型能够根据文本指令等 ...
- 新发布GoldenGate 12c版本中的主要特性
业界领先的实时数据集成工具GoldenGate现在可以帮助企业在传统数据库和云平台.大数据平台之间进行实时复制.新的OGG 12c支持更多的异构数据库和大数据平台,进一步提升可管理性和对混合云 ...
- 新发布 | Azure镜像市场正式上线
由世纪互联运营的 Azure 镜像市场于2016年9月21日正式落地中国市场,在客户和软件开发商间搭建起了一站式门户.来自全球和本地领先软件开发商并基于 Azure 的云应用.云服务和解决方案在门户中 ...
- 新发布 | 微软开源之路最新进展:FreeBSD落地由世纪互联营运的Microsoft Azure
微软和开源,是近几年业界孜孜不倦的讨论话题,微软也在开源之路越走越宽.最近与 FreeBSD 基金更紧密的合作踏出了微软在开源之路上的又一大步. 自2012年开始,微软在 FreeBSD 与其虚拟化平 ...
随机推荐
- Scrapyd、scrapyd-client部署爬虫项目
命令参考:https://github.com/scrapy/scrapyd-client https://scrapyd.readthedocs.io 安装组件 pip install scrapy ...
- 强!推荐一款自动化神器Autolt:不再重复工作
随着互联网不断发展,它给我们带来便利的同时,也带来了枯燥.重复.机械的重复工作.今天,我要和大家分享一款老牌实用的自动化工具:AutoIt,它能够让你告别繁琐的重复性工作,提高工作效率. 这里透露一下 ...
- python tkinter使用(十一)
python tkinter使用(十一) 本篇文章主要讲下tkinter 窗口的一些属性,以及实现无法关闭的窗口中遇到的一些问题. #!/usr/bin/python3 # -*- coding: U ...
- 袋鼠云数栈前端从 Multirepo 到 Monorepo 研发效率提升探索之路
我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:星野 困境频生前端代码管理何解? 前端代码管理一直是困扰着 ...
- Luogu P4592 [TJOI2018]异或 做题记录
随机跳的. 树上维护序列,显然树剖.维护异或,显然 01trie. 01trie 维护区间异或,显然可持久化一下. 看到时限很大,显然可以双 log. 于是跑一边树剖,再根据 id 暴力建一个 可持久 ...
- 深入理解JavaScript堆栈、事件循环、执行上下文和作用域以及闭包
1. 堆栈 在JavaScript中,内存堆是内存分配的地方,调用栈是代码执行的地方. 原始类型的保存方式:在变量中保存的是值本身,所以原始类型也被称之为值类型. 对象类型的保存方式:在变量中保存的是 ...
- CSS之动画
一.动画 动画类型 CSS3 可以创建动画,它可以取代许多网页动画图像.Flash 动画和 JavaScript 实现的效果. transform属性可以定义一些主要的动画属性, translate: ...
- 2、Text组件详解
TextStyle 的参数 //代码块 importM import 'package:flutter/material.dart'; void main() { runApp(MaterialApp ...
- 云图说丨DDoS防护解决方案:DDoS大流量攻击防得住
摘要:华为云安全服务打造DDoS防护解决方案,助您防患于未然,筑牢业务安全防线. 本文分享自华为云社区<[云图说]第255期 DDoS防护解决方案:DDoS大流量攻击防得住>,作者:阅识风 ...
- 解析鸿蒙内核消息队列QueueMail接口的哼哈二将
摘要:本文带领大家一起剖析了鸿蒙轻内核的队列模块的QueueMail两个接口的源代码. 本文分享自华为云社区<鸿蒙轻内核M核源码分析系列十三(续) 消息队列QueueMail接口>,作者: ...