模型微调-书生浦语大模型实战营学习笔记4&大语言模型7
大语言模型-7.模型微调
书生浦语大模型实战营学习笔记-4.模型微调
本节对应的视频教程为B站链接。笔记对视频的理论部分进行了整理。部分内容参考李宏毅2024春《生成式人工智能导论》和三分钟学会大模型PEFT的LORA算法 lora_rank, lora_alpha
大模型的训练过程
模型视角
这里原视频用的“分类”这个名字,我看到的时候还有点懵,后来才意识到这里说的是大模型的训练过程。
是的,意识到这点以后你就知道,这一节讲的内容和后面实操的内容差的有点多。。。
这里有两个概念。不过在了解这两个概念之前,我们先从模型的角度看看当今LLM都是如何训练出来的。

我们知道当今LLM的训练方式就是基于文字接龙:

但是不同阶段使用的训练数据不同。
Pretrain
首先,模型使用网上爬取的资料随意进行文字接龙训练,这个过程是Self-supervised Learning(自监督学习)的过程:

训练结束后,语言模型学了很多东西却不知道使用方法。就好像人有上乘内功却不知道使用的方法。
GPT、GPT2、GPT3都是使用这种方式完成训练的,只不过训练数据规模大小不一样。因为这一过程就叫“生成式预训练(Generative PreTraining)”,简称GPT——这就是GPT的名字来源
Instruction Fine-tuning
然后,使用一部分有标注数据在第一步自监督学习的基础上进行Instruction Fine-tuning。

InstructGPT就是使用这两步训练出来的。
但是数据标注太花费人力了,所以在这一步,有很多不同的做法,但是简单地概括,一派是要训练一堆专才,一派是要训练一个通才:


Reinforcement Learning from Human Feedback (RLHF)
RLHF就是用生成文本的人工反馈作为性能衡量标准,或者更进一步用该反馈作为损失来优化模型:

我们在使用GPT时,如果让它重新生成过答案,就会有human feedback的结果评价按钮,RLHF的数据即来源于此。

总结
三阶段对比如下:

好,下面再回过头来看视频中的两个概念:
- 增量预训练微调
- 使用场景:让基座模型学习到一些新知识,如某个垂类领域的常识
- 训练数据:文章、书籍、代码等
- 指令跟随微调
- 使用场景:让模型学会对话模板,根据人类指令进行对话
- 训练数据:高质量的对话、问答数据
这两个概念对应于模型训练的不同阶段:
所以,这里的“基座模型”指的就是经过Pretrain阶段得到的模型;
- 在成为“专才” 的道路上,需使用高质量数据进行“增量预训练微调”。这一步算是二次预训练;之后直接使用“指令跟随微调”

- 在成为“通才” 的道路上,直接使用“指令跟随微调” Instruction Fine-tuning,得到的模型就是对话模型。
- 如果不进行训练,直接使用模型,模型就意识不到你在问它问题:

数据视角
从互联网上爬出的数据显然不能直接拿来训练,需要进行一系列预处理。

首先,要将原始数据进行清理(数据清洗):

然后对数据进行格式转换,使其变为标准格式:

之后添加对话模板。格式转换后即可直接替换对话模板。

实际上,对话模板中还会有起始符和结束符。
训练完成后,在推理过程中仍然有添加与解除模板的过程:

LoRA
这里给个简单的例子便于大家理解LoRA:
对于模型有权重weight:

我们可以只更新低秩矩阵 \(LoraA\) 和 \(LoraB\) 来完成对模型的整体更新:

这样更新耗费的资源更少,效果却差不多。
QLoRA
QLoRA就是量化了的LoRA:

同时,引入了Paged Optimizers,它可以避免梯度检查点操作时内存爆满导致的内存错误。
XTuner
视频后面还有一些对于XTuner的介绍。

另外,关于使用XTuner微调大模型,我们有一个实操供参考。
模型微调-书生浦语大模型实战营学习笔记4&大语言模型7的更多相关文章
- 小马哥的 Java 项目实战营学习笔记(1)
小马哥的 Java 项目实战营 小马哥的 Java 项目实战营 第二节:数据存储之 JDBC JDBC 核心 API 数据源 接口 - javax.sql.DataSource获取方式 1.普通对象初 ...
- C语言中setjmp与longjmp学习笔记
C语言中setjmp与longjmp学习笔记 一.基础介绍 头文件:#include<setjmp.h> 原型: int setjmp(jmp_buf envbuf) ,然而longjm ...
- 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
- 【大数据】Sqoop学习笔记
第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MyS ...
- 【大数据】SparkCore学习笔记
第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象.代码中是一个抽象类,它代表一个不可变.可 ...
- 【大数据】Kafka学习笔记
第1章 Kafka概述 1.1 消息队列 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息 ...
- 【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
- 【大数据】SparkSql学习笔记
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式 ...
- 【大数据】Scala学习笔记
第 1 章 scala的概述1 1.1 学习sdala的原因 1 1.2 Scala语言诞生小故事 1 1.3 Scala 和 Java 以及 jvm 的关系分析图 2 1.4 Scala语言的特点 ...
随机推荐
- KingbaseES V8R6 集群环境备库不结束旧事务快照将影响主库的vacuum操作
前言 昨天同事遇到了一个有关vacuum的典型问题. V8R6读写分离集群环境,一主多备. 版本:kingbaseesv008r006c004 问题现象: 主库日常巡检发现日志大量记录: waring ...
- UEFI引导双系统安装archlinux后安装windows8.1,os-prober无法探测,生成grub.cfg没有windows
1.os-prober无法探测 可能是os-prober未启用 启用os-prober: sudo vim /etc/default/grub 添加: GRUB_DISABLE_OS_PROBER=f ...
- Typora基础使用教程
Typora基础使用教程(入门级) 安装和激活 安装 typora任意地方搜索下载即可 激活 百度网盘链接链接:https://pan.baidu.com/s/1WKig_3-hkDZTRjS1rgG ...
- #计数#A 古老谜题
From NOIP2020 模拟赛 B 组 Day4 题目 给定一个长度为\(n\)的01序列\(a\), 问有多少个三元组\((l,p,r),1\leq l<p<r\leq n\) 满足 ...
- 活动报名|OpenHarmony 战“码”先锋,PR 征集令
OpenAtom OpenHarmony(以下简称"OpenHarmony")工作委员会首度发起「OpenHarmony 开源贡献者计划」,旨在鼓励开发者参与 OpenHarmon ...
- 深入理解 C# 编程:枚举、文件处理、异常处理和数字相加
C# 枚举 枚举是一个特殊的"类",表示一组常量(不可更改/只读变量). 要创建枚举,请使用 enum 关键字(而不是 class 或 interface),并用逗号分隔枚举项: ...
- C# Lock的用法
当我们使用线程的时候,效率最高的方式当然是异步,即各个线程同时运行,其间不相互依赖和等待.但当不同的线程都需要访问某个资源的时候,就需要同步机制了,也就是说当对同一个资源进行读写的时候,我们要使该资源 ...
- amcap使用方法
1.选择设备 device 里面显示的是设备,分割线上面是视频设备,分割线下面是音频设备 2.打开图像 options > Preview 勾选上就是打开视频,再次点击取消勾线就是关闭视频 3 ...
- sql注入--基础注入判断方法(构造闭合)
在我们拿到一个sql注入的题目之后,在确定了注入点之后,接下来要做的事情就是进行基础注入判断. 在开始前,我们需要理解一个SQL注入中最常用的词汇 -- 构造闭合 . 对于SQL处理语句后台的写法: ...
- 简单3步,OpenHarmony上跑起ArkUI分布式小游戏
转自:OpenAtom OpenHarmony 在9月30日更新的 OpenHarmony3.0 LTS 上,标准系统新增支持了方舟开发框架(ArkUI).分布式组网和 FA 跨设备迁移能力等新特性, ...