人工智能大语言模型起源篇（二），从通用语言微调到驾驭LLM

上一篇：《人工智能大语言模型起源篇（一），从哪里开始》

（5）Howard 和 Ruder 于2018年发表的《Universal Language Model Fine-tuning for Text Classification》，https://arxiv.org/abs/1801.06146

这篇论文从历史的角度来看非常有意思。尽管它是在原始的《Attention Is All You Need》变换器发布一年后写的，但它并没有涉及变换器，而是专注于递归神经网络。然而，它仍然值得注意，因为它有效地提出了语言模型的预训练和迁移学习，用于下游任务。

尽管迁移学习在计算机视觉中已经被确立，但在自然语言处理（NLP）中还不普遍。ULMFit 是首批展示预训练语言模型并对其进行微调，从而在许多NLP任务中取得最先进成果的论文之一。

ULMFit 提出的微调语言模型的三阶段过程如下：

在大规模文本语料库上训练语言模型。
在任务特定的数据上微调这个预训练的语言模型，使其能够适应文本的特定风格和词汇。
在任务特定数据上微调分类器，并逐步解冻各层，以避免灾难性遗忘。

这个过程——在大规模语料库上训练语言模型，然后在下游任务上进行微调——是基于变换器的模型和像BERT、GPT-2/3/4、RoBERTa等基础模型所使用的核心方法。

然而，ULMFiT的关键部分——逐步解冻，通常在实践中不会常规进行，尤其是在使用变换器架构时，通常会一次性微调所有层。

来源：https://arxiv.org/abs/1801.06146

（6）Devlin、Chang、Lee 和 Toutanova 于2018年发表的《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，https://arxiv.org/abs/1810.04805

继原始的变换器架构之后，大型语言模型的研究开始分为两个方向：一种是用于预测建模任务（如文本分类）的编码器风格变换器，另一种是用于生成建模任务（如翻译、总结和其他形式的文本生成）的解码器风格变换器。

上面的BERT论文介绍了掩蔽语言模型（masked-language modeling）和下一句预测（next-sentence prediction）这一原始概念。它仍然是最具影响力的编码器风格架构。如果你对这一研究方向感兴趣，我推荐你进一步了解RoBERTa，它通过去除下一句预测任务，简化了预训练目标。

来源：https://arxiv.org/abs/1810.04805

（7）Radford 和 Narasimhan 于2018年发表的《Improving Language Understanding by Generative Pre-Training》，https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

原始的GPT论文介绍了流行的解码器风格架构，并通过下一个词预测进行预训练。BERT可以被看作是一个双向变换器，因为它的预训练目标是掩蔽语言模型，而GPT是一个单向的、自回归模型。虽然GPT的嵌入也可以用于分类任务，但GPT方法是当今最具影响力的大型语言模型（LLM）的核心，例如ChatGPT。

如果你对这个研究方向感兴趣，我建议你进一步阅读GPT-2 https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe和GPT-3 https://arxiv.org/abs/2005.14165的论文。这两篇论文展示了LLM能够进行零-shot和少-shot学习，并突出了LLM的突现能力。GPT-3仍然是当前一代LLM（如ChatGPT）训练的流行基准和基础模型——我们稍后会作为单独的条目讨论导致ChatGPT的InstructGPT方法。

              来源: https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

（8）Lewis、Liu、Goyal、Ghazvininejad、Mohamed、Levy、Stoyanov 和 Zettlemoyer 于2019年发表的《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》，https://arxiv.org/abs/1910.13461

如前所述，BERT类型的编码器风格LLM通常更适用于预测建模任务，而GPT类型的解码器风格LLM则更擅长生成文本。为了兼顾两者的优点，上面的BART论文将编码器和解码器部分结合在一起（这与原始的变换器架构（本清单中的第二篇论文）并无太大区别）。

来源：https://arxiv.org/abs/1910.13461

（9）Yang、Jin、Tang、Han、Feng、Jiang、Yin 和 Hu 于2023年发表的《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》，https://arxiv.org/abs/2304.13712

这不是一篇研究论文，但可能是迄今为止最好的架构综述，展示了不同架构的演变过程。然而，除了讨论BERT风格的掩蔽语言模型（编码器）和GPT风格的自回归语言模型（解码器）外，它还提供了关于预训练和微调数据的有用讨论和指导。

                                          现代 LLM 的进化树，来自 https://arxiv.org/abs/2304.13712。

人工智能大语言模型起源篇（二），从通用语言微调到驾驭LLM的更多相关文章

本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT
OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿.130亿.330亿 ...
看过《大湿教我写.net通用权限框架(1)之菜单导航篇》之后发生的事（续）——主界面
引言在UML系列学习中的小插曲:看过<大湿教我写.net通用权限框架(1)之菜单导航篇>之后发生的事在上篇中只拿登录界面练练手,不把主界面抠出来,实在难受,严重的强迫症啊.之前一直在总 ...
【基于WinForm+Access局域网共享数据库的项目总结】之篇二：WinForm开发扇形图统计和Excel数据导出
篇一:WinForm开发总体概述与技术实现篇二:WinForm开发扇形图统计和Excel数据导出篇三:Access远程连接数据库和窗体打包部署 [小记]:最近基于WinForm+Access数据库 ...
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计 ...
zz【清华NLP】图神经网络GNN论文分门别类，16大应用200+篇论文最新推荐
[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...
保姆级教程：用GPU云主机搭建AI大语言模型并用Flask封装成API，实现用户与模型对话
导读在当今的人工智能时代,大型AI模型已成为获得人工智能应用程序的关键.但是,这些巨大的模型需要庞大的计算资源和存储空间,因此搭建这些模型并对它们进行交互需要强大的计算能力,这通常需要使用云计算服务 ...
【基于WPF+OneNote+Oracle的中文图片识别系统阶段总结】之篇二：基于OneNote难点突破和批量识别
篇一:WPF常用知识以及本项目设计总结:http://www.cnblogs.com/baiboy/p/wpf.html 篇二:基于OneNote难点突破和批量识别:http://www.cnblog ...
SQL Server调优系列玩转篇二（如何利用汇聚联合提示（Hint）引导语句运行）
前言上一篇我们分析了查询Hint的用法,作为调优系列的最后一个玩转模块的第一篇.有兴趣的可以点击查看:SQL Server调优系列玩转篇(如何利用查询提示(Hint)引导语句运行) 本篇继续玩转模块 ...
大数据工具篇之Hive与MySQL整合完整教程
大数据工具篇之Hive与MySQL整合完整教程一.引言 Hive元数据存储可以放到RDBMS数据库中,本文以Hive与MySQL数据库的整合为目标,详细说明Hive与MySQL的整合方法. 二.安装 ...
大数据工具篇之Hive与HBase整合完整教程
大数据工具篇之Hive与HBase整合完整教程一.引言最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方 ...

随机推荐

Sql介绍与 Sql基础查询
Sql介绍与 Sql基础查询 SQL SQL也称为结构化查询语言(Structure Query Language),是一种用于管理和操作关系型数据库的标准化计算机语言,SQL语言广泛应用于各种关系 ...
【赵渝强老师】使用Docker UI
Docker提供一个平台来把应用程序当作容器来打包.分发.共享和运行,它已经通过节省工作时间来拯救了成千上万的系统管理员和开发人员.Docker不用关注主机上运行的操作系统是什么,它没有开发语言.框架 ...
《你必须掌握的Entity Framework 6.x与Core 2.0》代码下载
https://item.jd.com/12376014.html<你必须掌握的Entity Framework 6.x与Core 2.0>代码下载,共享代码: https://git ...
数据库运维实操优质文章分享（含Oracle、MySQL等） | 2023年6月刊
本文为大家整理了墨天轮数据社区2023年6月发布的优质技术文章/文档,主题涵盖Oracle.MySQL.PostgreSQL等数据库的安装配置.故障处理.性能优化等日常实践操作,以及常用脚本.注意事项 ...
C++中左值和右值的区别
#include <iostream> using namespace std; // 什么是左值和右值 const 可以修饰左值和右值z // 左值:有地址的变量 // 右值:没有地址的 ...
C++ 第一节课名字空间，输入输出函数，和 C 语言的区别
#include <iostream> // #include 头文件,C++标准库的头文件都不带 .h (.h 是C库头文件添加的) #include <cstdio> #i ...
关于 vue3 中的 fragment 组件
vue3 中的模板中只能返回一个元素 ,否则报错,使用 fragment 组件可以返回多个元素标签
02 Transformer 中 Add&Norm （残差和标准化）代码实现
python/pytorch 基础 https://www.cnblogs.com/nickchen121 培训机构(Django 类似于 Transformers) 首先由一个 norm 函数 no ...
KubeSphere 开源社区 2023 年度回顾与致谢
2023 年结束了,让我们再一次一起回顾一下 KubeSphere 开源社区在过去一年的变化.更重要的是,本篇文章将会对 2023 年所有参与过 KubeSphere 社区贡献的成员致以最诚挚的感谢, ...
FluxCD 多集群应用的设计与实现
前言 FluxCD 是 CNCF 的孵化项目,可以让我们以 GitOps 的方式轻松地交付应用.和另一个同类的 CNCF 孵化项目 ArgoCD 不同,FluxCD 是许多 toolkit 的集合,天 ...

人工智能大语言模型起源篇（二），从通用语言微调到驾驭LLM

人工智能大语言模型起源篇（二），从通用语言微调到驾驭LLM的更多相关文章

随机推荐

热门专题