Pine 发自凹非寺

  量子位公众号 QbitAI

  ChatGPT 的热度稍有平息,蛰伏已久的 Meta 就迅速放出“大招”:一次性发布四种尺寸的大语言模型 LLaMA:7B、13B、33B 和 65B,用小杯、中杯、大杯和超大杯来解释很形象了有木有(Doge)。

  还声称,效果好过 GPT,偏向性更低,更重要的是所有尺寸均开源,甚至 13B 的 LLaMA 在单个 GPU 上就能运行。

  消息一出,直接在网上掀起一阵热度,不到一天时间,相关推文的浏览量就已经快破百万。

  同在 Meta 的 LeCun 当然也得为这次大模型的热度“添油加柴”,LLaMA 直接给他写了段“AI”Rap:

We gotta think about the future, it’s gonna be heresoon

Maybe we can even put some AI in themoon

Think about the children, think about the nextgeneration

Let’s make sure we put the right systems in theirfoundation

(不得不说效果不错,还双押了,skr~)

  不过话说回来,这次 Meta 的 LLaMA 模型到底如何?

  一起来一探究竟。

  数学编程写求职信统统都能拿下

  Meta 发布的 LLaMA 是通用大语言模型,原理就不多赘述,和以往的大语言模型一样:将一系列单词作为输入,并预测下一个单词以递归生成文本。

  这次,Meta 之所以一次给出不同大小的 LLaMA 模型,论文中给出了这样的解释:近来的研究表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由基于更多数据训练的更小的模型实现的。

  也就是说,较小的模型规模加上比较大的数据集,获得的性能可能会比更大规模模型的要好很多。

  一方面,小规模模型需要的计算能力和资源相对来说都会少很多,另一方面,它还能基于更多数据集训练更多 token,更容易针对特定的潜在产品用例进行重新训练和微调。

  除了一把给出四种尺寸的 LLaMA,Meta 这次还直接开源了这个大语言模型。

  更重要的是,Meta 为了让自己的工作与开源兼容,使用的都是公开的数据。

  而这把开源,也不只利好开发人员,同样也利好 Meta。

  LLaMA 模型也有着其他大语言模型的通病:会产生偏见性、有毒或者虚假的内容。开源吸引来的更多的研究可以帮助解决这个问题。

  不过讲了这么多,Meta 的这个 LLaMA 模型到底能做啥?

  扎克伯格直接在 Facebook 放出豪言,这是 AI 大语言模型里的新 SOTA:生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等它都能干。

  论文的最后也给出了一些栗子:

  比如说,给出几个数字,它直接就能找出其中的规律并续写,还 balabala 解释了一大通。

  ChatGPT 之前擅长写的求职信 LLaMA 也能轻松拿下。

  编程、写小说也是分分钟的事儿:

  效果超越 GPT-3

  当然按照惯例,在最后 LLaMA 还是得和其他大模型做做比较(是骡子是马,咱得拉出来遛遛)。

  其中,大家比较熟悉的就是 GPT-3,直接看看它们俩之间的效果比较:

  相较于有 1750 亿参数的 GPT-3,最多只有 650 亿参数 LLaMA 赢麻了:它在大多数基准上都要优于 GPT-3。

  比如说常识推理:

  或者说一些基础问题的解决:

  又比如说阅读理解:

  甚至,研究人员还提供了一组评估模型偏见性和毒性的基准,得分越高,偏见就越大:LLaMA 以 66.6 分险胜,偏见性略低于 GPT-3。

  你对 Meta 这次的 LLaMA 怎么看呢?如果还想了解更多可以戳文末链接~

  论文地址:

  https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

  参考链接:

  [1] https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

  [2] https://twitter.com/GuillaumeLample/status/1629151231800115202

  [3]https://twitter.com/ylecun/status/1629243179068268548

单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA的更多相关文章

  1. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  2. 千亿参数开源大模型 BLOOM 背后的技术

    假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...

  3. DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍

    DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述 近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...

  4. 文心大模型api使用

    文心大模型api使用 首先,我们要获取硅谷社区的连个key 复制两个api备用 获取Access Token 获取access_token示例代码 之后就会输出 作文创作 作文创作:作文创作接口基于文 ...

  5. 无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00

    武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...

  6. PowerDesigner 学习:十大模型及五大分类

    个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...

  7. PowerDesigner 15学习笔记:十大模型及五大分类

    个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...

  8. SIM卡(单卡)配置

    SIM卡相关配置 1.GPIO90--->BPI8 GPIO91--->BPI9 GPIO92--->BPI10 2.ProjectConfig.mk:MTK_PROTOCOL1_R ...

  9. Local Response Normalization作用——对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力

    AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中.AlexNet主要使用到的新技术点如下. (1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过 ...

  10. ubuntu12.04单卡server(mentohust认证)再加上交换机做路由软件共享上网

    最近成立了实验室的网络环境中,通过交换机连接的所有主机实验室.想要一个通过该server(单卡)做网关,使用mentohust认证外网,然后内网中的其它主机通过此网关来连接外网. 1.首先在serve ...

随机推荐

  1. Go语言new和make的区别

    一.简单说明 方法 作用 作用对象 返回值 new 分配内存 值类型和用户定义的类型 初始化为零值,返回指针 make 分配内存 内置引用类型(map,slice,channel) 初始化为零值,返回 ...

  2. 深入浅出容器学习--Docker网络

    一.Docker的网络概念 容器网络模型主要包含了三个概念: network:网络,这里可以理解为一个Driver,是一个第三方网络栈,包含多种网络模式. 单主机网络模式(none.host.brid ...

  3. Golang基础笔记一之变量声明和类型介绍

    本文首发于公众号:Hunter后端 原文链接:Golang基础笔记一之变量声明和类型介绍 这一篇笔记主要介绍 Golang 的基础内容,包括 Golang 的运行,变量声明以及 Golang 里的各种 ...

  4. 高效安全迁移:PG高可用集群实战方案深度解析

    PostgreSQL是一个开源的数据库管理系统,相比于其他开源数据库系统,PostgreSQL有更加丰富的数据类型和可扩展性,并因此被广泛采用.在实际工作中,若企业业务需求变动,则有可能面临PG高可用 ...

  5. Idea 2021.2 破解激活

    官网下载安装 官网 启动软件->试用 (Evaluate for free) -> Evaluate,进入欢迎界面(没有试用按钮见下面常见问题) 插件(Plugins)->齿轮按钮- ...

  6. nginx反向代理,负载均衡和yeauty集成的websocket的使用

    被要求一个这样的需求:要求项目和websocket使用一个端口.经过一周激烈争论,领导终于同意可以可以开通一个端口,一个月了,端口还没有开. 正式环境已经通过此方法进行部署,没有问题. 前言 因涉及到 ...

  7. pdf渲染和对比 react-pdf-highlighter

    前言 react-pdf-highlighter 使用此插件 做pdf的预览 高亮 批注 对比等 效果 地址 https://github.com/dingshaohua-cn/pdf-highlig ...

  8. Windows Server 2016 - 关闭windows defender后台服务

    因为我的服务器的CPU仅仅是一个AMD的速龙3000G,所以计算能力有限.虚拟机的黑群晖和CentOS7还没开的时候,我发现CPU的占用率已经有点起来了,一看windows defender服务占用了 ...

  9. Codeforces Round #669 ABC 题解

    A. Ahahahahahahahaha 题意:给个一个偶数长度的01序列,要求删除不超过2/n个元素使得奇数位和等于偶数位和. 思路:注意到题目给的提示,只有0和1,且为偶数长度. 那么对和有贡献的 ...

  10. java GUI 测试

    简介 模拟机器人操作测试GUI code /* * @Author: your name * @Date: 2020-11-08 18:22:54 * @LastEditTime: 2020-11-0 ...