你应该懂的AI大模型(一) 之 浅知大模型
1、AI 大模型的训练过程
AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。
- 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子;
- 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”;
- 第三步:训练模型:将“孩子”(模型)放进图书馆进行学习,慢慢的“孩子”的语言能力和内容表达越来越接近预先准备的“教材”,形成“base model”或者称之为“uncensored model”。
这个时候的模型训练和使用过程中没有经过内容过滤或审查,没有敏感过滤。这类模型能够生成更加多样化和创造性的文本,由于训练数据中可能包含社会偏见,模型输出可能强化这些偏见,可能生成包含暴力、色情、歧视、谣言等不当内容,带来安全和法律风险,但是这个时候的模型更像是一个真实的人,会骂街会说怪话。
到了这一步模型的知识量是达标的,但是很难胜任就特定的工作,比如成为医生、律师等等,这个时候就需要对模型进行“职业培训”,就需要开展第四步工作。
- 第四步:微调模型:向“孩子”灌输价值观,比如“我爱我的祖国”、“医生不能辱骂病人”。
这个过程不影响 base model 的表现,一个 base model 可以调出成千上万个模型。 这部分的训练成本并没有那么高,基于一个好的大模型 base model 可以训练出自己需要的模型,被微调过的模型可以再次微调。
- 第五步:部署对话机器人,“孩子”已经经过职业培训了可以上岗了。
资源消耗最大的使训练步骤,训练过程可能需要上千张显卡,但是部署使用可能只需要几张显卡。就像学生学习需要建一所学校,但是上班只需要一个工位一样。
2、AI 大模型的训练方式
把“孩子”放进图书馆里,不去管他,可能过上一百年还是学不会书里面的内容,因此我们要帮助建立合理的学习方法。
需要一个能让一个“孩子”从话都不会说,到认识字、到理解书中的知识、到像人一样去思考的一整套学习模式或者叫学习框架,Transformer 就是这样一个框架.
Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为许多现代模型(如 BERT、GPT 等)的基础。
现在能叫得出名字的大语言模型多数都是基于Transformer这套框架训练的。那么问题来了,为什么使用的是一套学习框架,但是各个厂商训练出来的模型能力不一样呢,这是因为各个厂商的训练算法不一样,这一情况可以理解为,不同学校的孩子使用的教材是一样的,但是受学校教学质量的影响,教育出来的孩子也是千差万别,目前各大厂商在卷的就是训练算法。
上述的内容都是关于模型输出质量方面的,这是模型训练的最重要部分,但不是全部内容,因为在质量不变的情况下,模型训练可以无限的堆砌参数,不管是有效参数或者无效参数,只要模型持续增大,训练时间足够长,你的模型质量总能超越前一代模型。通过这种“大力出奇迹”训练出来的庞大模型是很难商用的,例如你训练需要 1000~2000 张显卡,最后部署需要 100张显卡,如此的成本很难推广使用。
当前的大模型为了质量高,进行了大量甚至巨量的训练,这个量一是指规模、二是指时间,规模大说明需要的显卡多、时间多,规模大说明训练出的模型参数多,参数越多说明模型的规模越大,模型的规模越大说明部署的时候需要的显卡资源越多。模型后面的参数 1B、3B,B 是指 billion。
1B(十亿)参数的模型在不同精度下占用的显存如下:
INT8(8位整型):1B参数占用约1GB显存。
FP16(半精度浮点):1B参数占用约2GB显存。
FP32(全精度浮点):1B参数占用约4GB显存。
因此模型训练不仅在卷质量也在卷成本。
3、什么是数据蒸馏
数据蒸馏(Data Distillation)是一种从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集的技术。其目标是在保持模型性能的同时,显著降低数据存储和计算成本。
所谓“蒸馏”,是让大模型的智慧“缩水不减质”地转移到小模型上的技术。它的过程可以用“老师带学生”的方式来形象化理解。我们可以将大语言模型看作经验丰富的教授,而小模型则是刚入门的学生。蒸馏的目标就是让这个学生不需要学习所有课程,却能掌握教授最重要的知识,并在考试,即推理和任务执行中表现得几乎一样好。
OpenAI在说 DeepSeek蒸馏 ChatGPT 的数据。(笔者认为 DeepSeek为了省事儿蒸馏了 OpenAI数据,违背了 OpenAI的商业协议,但是这个所谓的商业协议本身就是有争议的,原本免费的知识经过OpenAI 之后知识就成了收费的了,OpenAI本身自己就官司缠身)
之前OpenAI、Google这样的大公司之前的策略是“规模就是一切”,它们的盈利模式依赖于提供更强的大模型服务,而不是推广小模型。因此,它们更愿意投入更多计算资源去训练更大的模型,而不是优化小模型。并且蒸馏过程本身也是需要计算资源的,因为让大模型生成大量高质量数据,包括它们的推理步骤,也是一个昂贵的过程。既然都贵,那么在早期,很多团队宁愿直接用大模型,而不是投入额外资源去蒸馏小模型。DeepSeek引入了“链式思考”等方式,让小模型不仅能模仿答案,还能学会推理过程。就让蒸馏变得更有效,因此越来越多的团队开始采用了。
训练算法就像是种子,什么样的种子能结出什么样的果子。语料即训练的数据相当于是肥料,好的训练数据能让训练事半功倍,但主要还是看训练算法本身。
你应该懂的AI大模型(一) 之 浅知大模型的更多相关文章
- 华为有AI,这场转型战有点大
华为有AI,这场转型战有点大 https://mp.weixin.qq.com/s/qnUP5cgbNxXcAT82NQARtA 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 华为有AI ...
- 偶尔转帖:AI会议的总结(by南大周志华)
偶尔转帖:AI会议的总结(by南大周志华) 说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全. 同分的按字母序排列. 不很严谨地说, tier ...
- 颜色空间模型 与 Opencv中的HSV模型范围
颜色空间总结 RGB.HSV.YUV 什么是颜色 Wiki是这样说的:颜色或色彩是通过眼.脑和我们的生活经验所产生的一种对光的视觉效应.嗯,简单点说,颜色就是人对光的一种感觉,由大脑产生的一种感觉.感 ...
- 浅谈管道模型(Pipeline)
本篇和大家谈谈一种通用的设计与处理模型--Pipeline(管道). Pipeline简单介绍 Pipeline模型最早被使用在Unix操作系统中.据称,假设说Unix是计算机文明中最伟大的发明,那么 ...
- 大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
- Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个 ...
- 以图搜图之模型篇: 基于 InceptionV3 的模型 finetune
在以图搜图的过程中,需要以来模型提取特征,通过特征之间的欧式距离来找到相似的图形. 本次我们主要讲诉以图搜图模型创建的方法. 图片预处理方法,看这里:https://keras.io/zh/prepr ...
- 浅谈树模型与集成学习-从决策树到GBDT
引言 神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
- Coursera Deep Learning笔记 序列模型(一)循环序列模型[RNN GRU LSTM]
参考1 参考2 参考3 1. 为什么选择序列模型 序列模型能够应用在许多领域,例如: 语音识别 音乐发生器 情感分类 DNA序列分析 机器翻译 视频动作识别 命名实体识别 这些序列模型都可以称作使用标 ...
- R2CNN模型——用于文本目标检测的模型
引言 R2CNN全称Rotational Region CNN,是一个针对斜框文本检测的CNN模型,原型是Faster R-CNN,paper中的模型主要针对文本检测,调整后也可用于航拍图像的检测中去 ...
随机推荐
- 入门Dify平台:如何根据需求选择与创建最合适的应用
今天我们将继续深入讲解Dify,重点介绍如何创建应用.具体来说,我们将探讨如何根据不同的需求来决定选择什么类型的应用最为合适,帮助大家更好地理解在Dify平台上构建应用的最佳实践. 创建空白应用 首先 ...
- 搭建docker swarm集群实现负载均衡
Swarm简介:Swarm是Docker官方提供的一款集群管理工具,其主要作用是把若干台Docker主机抽象为一个整体,并且通过一个入口统一管理这些Docker主机上的各种Docker资源.Swarm ...
- substring( )的两种用法?
xx.substring()括号中带的参数不一样,效果就会有很大的区别 1.xx.substring(0,2)表示取第一个和第二个字符(0,1,2表示第一.二.三个字符,含头不含尾的原则就只包含第一. ...
- 多态的前提--java进阶day02
1.多态的前提条件 第一点和第二点都很好理解,第三点父类引用指向子类对象是什么意思?以下图进行讲解 我们以前的写法,如下图,叫做子类引用指向子类 那父类引用呢?就是把左边换成父类Animal即可 因为 ...
- 【虚拟机】VirualBox安装macOS系统
[虚拟机]VirualBox安装macOS系统 零.创建虚拟机 类型选择 Mac OS X 版本选择 macOS 10.13 High Sierra (64-bit) 注意:这边我设置的名称为 Mac ...
- CoreOS 手动升级篇
说到升级...通常肯定会以下2个步骤: 检查是否有新版本. 下载和安装新版本. 在 CoreOS 中也一样,我们先来看下在 CoreOS 中对应的命令: # 检查是否有新版本 update_engin ...
- 目前国内可用Docker镜像源汇总(截至2024年11月)
本文主要讲述了由于特殊原因国内的 Docker 镜像源出现问题,国内许多常见的镜像源如网易.百度等已不可用.文中介绍了中科大镜像源的暂时关闭情况,以及阿里镜像源包括私人阿里镜像加速器的使用方式,并提供 ...
- QT 可绑定属性 QProperty QObjectBindableProperty QObjectComputedProperty,简化信号、槽(SIGNAL、SLOT)机制的方法
QT提供的可绑定属性是指这些属性可以绑定到其他值或表达式上(通常是 C++ lambda 表达式).如果属性是通过表达式进行绑定,该属性会跟随表达式自动更新.可绑定属性由 QProperty 类和 Q ...
- FastAPI依赖注入性能优化策略
title: FastAPI依赖注入性能优化策略 date: 2025/04/12 00:53:48 updated: 2025/04/12 00:53:48 author: cmdragon exc ...
- Mybatis的关联关系的配置
例子1. <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE mapper PUBLIC &qu ...