大语言模型-7.模型微调

书生浦语大模型实战营学习笔记-4.模型微调

本节对应的视频教程为B站链接。笔记对视频的理论部分进行了整理。部分内容参考李宏毅2024春《生成式人工智能导论》和三分钟学会大模型PEFT的LORA算法 lora_rank， lora_alpha

大模型的训练过程

模型视角

这里原视频用的“分类”这个名字，我看到的时候还有点懵，后来才意识到这里说的是大模型的训练过程。

是的，意识到这点以后你就知道，这一节讲的内容和后面实操的内容差的有点多。。。

这里有两个概念。不过在了解这两个概念之前，我们先从模型的角度看看当今LLM都是如何训练出来的。

我们知道当今LLM的训练方式就是基于文字接龙：

但是不同阶段使用的训练数据不同。

Pretrain

首先，模型使用网上爬取的资料随意进行文字接龙训练，这个过程是Self-supervised Learning（自监督学习）的过程：

训练结束后，语言模型学了很多东西却不知道使用方法。就好像人有上乘内功却不知道使用的方法。

GPT、GPT2、GPT3都是使用这种方式完成训练的，只不过训练数据规模大小不一样。因为这一过程就叫“生成式预训练（Generative PreTraining）”，简称GPT——这就是GPT的名字来源

Instruction Fine-tuning

然后，使用一部分有标注数据在第一步自监督学习的基础上进行Instruction Fine-tuning。

InstructGPT就是使用这两步训练出来的。

但是数据标注太花费人力了，所以在这一步，有很多不同的做法，但是简单地概括，一派是要训练一堆专才，一派是要训练一个通才：

Reinforcement Learning from Human Feedback (RLHF)

RLHF就是用生成文本的人工反馈作为性能衡量标准，或者更进一步用该反馈作为损失来优化模型：

我们在使用GPT时，如果让它重新生成过答案，就会有human feedback的结果评价按钮，RLHF的数据即来源于此。

总结

三阶段对比如下：

好，下面再回过头来看视频中的两个概念：

增量预训练微调
- 使用场景：让基座模型学习到一些新知识，如某个垂类领域的常识
- 训练数据：文章、书籍、代码等
指令跟随微调
- 使用场景：让模型学会对话模板，根据人类指令进行对话
- 训练数据：高质量的对话、问答数据

这两个概念对应于模型训练的不同阶段：

所以，这里的“基座模型”指的就是经过Pretrain阶段得到的模型；

在成为“专才” 的道路上，需使用高质量数据进行“增量预训练微调”。这一步算是二次预训练；之后直接使用“指令跟随微调”
在成为“通才” 的道路上，直接使用“指令跟随微调” Instruction Fine-tuning，得到的模型就是对话模型。
如果不进行训练，直接使用模型，模型就意识不到你在问它问题：

数据视角

从互联网上爬出的数据显然不能直接拿来训练，需要进行一系列预处理。

首先，要将原始数据进行清理（数据清洗）：

然后对数据进行格式转换，使其变为标准格式：

之后添加对话模板。格式转换后即可直接替换对话模板。

实际上，对话模板中还会有起始符和结束符。

训练完成后，在推理过程中仍然有添加与解除模板的过程：

LoRA

这里给个简单的例子便于大家理解LoRA：

对于模型有权重weight：

我们可以只更新低秩矩阵 \(LoraA\) 和 \(LoraB\) 来完成对模型的整体更新：

这样更新耗费的资源更少，效果却差不多。

QLoRA

QLoRA就是量化了的LoRA：

同时，引入了Paged Optimizers，它可以避免梯度检查点操作时内存爆满导致的内存错误。

XTuner

视频后面还有一些对于XTuner的介绍。

另外，关于使用XTuner微调大模型，我们有一个实操供参考。

模型微调-书生浦语大模型实战营学习笔记4&大语言模型7的更多相关文章

小马哥的 Java 项目实战营学习笔记（1）
小马哥的 Java 项目实战营小马哥的 Java 项目实战营第二节:数据存储之 JDBC JDBC 核心 API 数据源接口 - javax.sql.DataSource获取方式 1.普通对象初 ...
C语言中setjmp与longjmp学习笔记
C语言中setjmp与longjmp学习笔记一.基础介绍头文件:#include<setjmp.h> 原型: int setjmp(jmp_buf envbuf) ,然而longjm ...
【学习笔记】大数据技术原理与应用（MOOC视频、厦门大学林子雨）
1 大数据概述大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低数据量大:大数据摩尔定律快速化:从数据的生成到消耗,时间窗口小,可 ...
Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
【大数据】Sqoop学习笔记
第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MyS ...
【大数据】SparkCore学习笔记
第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个不可变.可 ...
【大数据】Kafka学习笔记
第1章 Kafka概述 1.1 消息队列 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息 ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
【大数据】SparkSql学习笔记
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式 ...
【大数据】Scala学习笔记
第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ...

随机推荐

解决HttpServletRequest调用getInputStream()方法读取参数只能获取一次问题
1.问题描述由于后端接口获取前端传过的参数是通过HttpServletRequest接收获取的.现有一需求需要在接口调用之前拦截接口进行业务处理.在拦截类中调用getInputStream()获取参 ...
KingbaseES 执行计划常见节点介绍
KingbaseES中explain命令来查看执行计划时最常用的方式.其命令格式如下: explain [option] statement 其中option为可选项,常用的是以下5种情况的组合: a ...
KingbaseES 表级设置autovacuum有关参数和触发机制
前言在表级别设置autovacuum有关参数清理表的死亡元祖可以有效规避autovacuum触发全局默认阈值的高峰.例如,如果想让表的autovacuum任务更频繁,可以在表级设置更小的触发auto ...
UE4蓝图对Actor的引用
通过关卡蓝图调用在关卡中放置一个Actor,在关卡蓝图中右键 create a reference to actor,即可注意使用该方法创建时,需要现在关卡中选择上该类Actor 当Actor生成 ...
JavaScript语法-字符串模板
目录 JavaScript 模板字符串代码问题初学者容易出现的错误调用函数的情况 JavaScript 模板字符串代码以下是index.js的部分代码: onShareAppMessage ...
jsPDF 添加中文字体分页打印移除空白页
jsPDF2.5版本默认不支持utf-8的字体具体看官方的说明,默认是不支持中文的.要使用中文需要自己添加字体. 1 将字体转换为base64编码然后引入.也可以直接引入二进制文件,但没试过这个 ...
Device Partner平台合作伙伴认证和数据安全保护
Device Partner平台是面向AIoT产业链伙伴的一站式服务平台,伙伴可以通过平台获取最新的产品.服务与解决方案,实现智能硬件产品的开发.认证.量产和推广等全生命周期的管理,加入Harmon ...
WAF 原理入门
WAF 入门 WAF 功能 WAF 全称叫 Web Application Firewall,和传统防火墙的区别是,它是工作在应用层的防火墙,主要对 web 请求/响应进行防护.那么 WAF 有什么功 ...
Next.js 实战
0x1 CSR,SSR,SSG CSR 客户端渲染(Client-Side Rendering).常见 B 端 Web 应用开发模式,前后端分离,服务器压力相对更轻,渲染工作在客户端进行,服务器直接返 ...
CENTOS 6.4 编译安装APACHE PHP MYSQL ZEND【转载未测试】
CENTOS 6.4 编译安装APACHE PHP MYSQL ZEND 由 cache 发布于 WWW 2013-07-21 [ 5560 ] 次浏览 [ 0 ] 条评论标签: LAMP 搞网站跑 ...

模型微调-书生浦语大模型实战营学习笔记4&大语言模型7