1、AI 大模型的训练过程

AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。

  • 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子;
  • 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”;
  • 第三步:训练模型:将“孩子”(模型)放进图书馆进行学习,慢慢的“孩子”的语言能力和内容表达越来越接近预先准备的“教材”,形成“base model”或者称之为“uncensored model”。

这个时候的模型训练和使用过程中没有经过内容过滤或审查,没有敏感过滤。这类模型能够生成更加多样化和创造性的文本,由于训练数据中可能包含社会偏见,模型输出可能强化这些偏见,可能生成包含暴力、色情、歧视、谣言等不当内容,带来安全和法律风险,但是这个时候的模型更像是一个真实的人,会骂街会说怪话。

到了这一步模型的知识量是达标的,但是很难胜任就特定的工作,比如成为医生、律师等等,这个时候就需要对模型进行“职业培训”,就需要开展第四步工作。

  • 第四步:微调模型:向“孩子”灌输价值观,比如“我爱我的祖国”、“医生不能辱骂病人”。

    这个过程不影响 base model 的表现,一个 base model 可以调出成千上万个模型。 这部分的训练成本并没有那么高,基于一个好的大模型 base model 可以训练出自己需要的模型,被微调过的模型可以再次微调。

  • 第五步:部署对话机器人,“孩子”已经经过职业培训了可以上岗了。

资源消耗最大的使训练步骤,训练过程可能需要上千张显卡,但是部署使用可能只需要几张显卡。就像学生学习需要建一所学校,但是上班只需要一个工位一样。

2、AI 大模型的训练方式

把“孩子”放进图书馆里,不去管他,可能过上一百年还是学不会书里面的内容,因此我们要帮助建立合理的学习方法。

需要一个能让一个“孩子”从话都不会说,到认识字、到理解书中的知识、到像人一样去思考的一整套学习模式或者叫学习框架,Transformer 就是这样一个框架.

Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为许多现代模型(如 BERT、GPT 等)的基础。

现在能叫得出名字的大语言模型多数都是基于Transformer这套框架训练的那么问题来了,为什么使用的是一套学习框架,但是各个厂商训练出来的模型能力不一样呢,这是因为各个厂商的训练算法不一样,这一情况可以理解为,不同学校的孩子使用的教材是一样的,但是受学校教学质量的影响,教育出来的孩子也是千差万别,目前各大厂商在卷的就是训练算法。

上述的内容都是关于模型输出质量方面的,这是模型训练的最重要部分,但不是全部内容,因为在质量不变的情况下,模型训练可以无限的堆砌参数,不管是有效参数或者无效参数,只要模型持续增大,训练时间足够长,你的模型质量总能超越前一代模型。通过这种“大力出奇迹”训练出来的庞大模型是很难商用的,例如你训练需要 1000~2000 张显卡,最后部署需要 100张显卡,如此的成本很难推广使用。

当前的大模型为了质量高,进行了大量甚至巨量的训练,这个量一是指规模、二是指时间,规模大说明需要的显卡多、时间多,规模大说明训练出的模型参数多,参数越多说明模型的规模越大,模型的规模越大说明部署的时候需要的显卡资源越多。模型后面的参数 1B、3B,B 是指 billion。

1B(十亿)参数的模型在不同精度下占用的显存如下:

  • INT8(8位整型):1B参数占用约1GB显存。

  • FP16(半精度浮点):1B参数占用约2GB显存。

  • FP32(全精度浮点):1B参数占用约4GB显存。

因此模型训练不仅在卷质量也在卷成本。

3、什么是数据蒸馏

数据蒸馏(Data Distillation)是一种从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集的技术。其目标是在保持模型性能的同时,显著降低数据存储和计算成本。

所谓“蒸馏”,是让大模型的智慧“缩水不减质”地转移到小模型上的技术。它的过程可以用“老师带学生”的方式来形象化理解。我们可以将大语言模型看作经验丰富的教授,而小模型则是刚入门的学生。蒸馏的目标就是让这个学生不需要学习所有课程,却能掌握教授最重要的知识,并在考试,即推理和任务执行中表现得几乎一样好。

OpenAI在说 DeepSeek蒸馏 ChatGPT 的数据。(笔者认为 DeepSeek为了省事儿蒸馏了 OpenAI数据,违背了 OpenAI的商业协议,但是这个所谓的商业协议本身就是有争议的,原本免费的知识经过OpenAI 之后知识就成了收费的了,OpenAI本身自己就官司缠身)

之前OpenAI、Google这样的大公司之前的策略是“规模就是一切”,它们的盈利模式依赖于提供更强的大模型服务,而不是推广小模型。因此,它们更愿意投入更多计算资源去训练更大的模型,而不是优化小模型。并且蒸馏过程本身也是需要计算资源的,因为让大模型生成大量高质量数据,包括它们的推理步骤,也是一个昂贵的过程。既然都贵,那么在早期,很多团队宁愿直接用大模型,而不是投入额外资源去蒸馏小模型。DeepSeek引入了“链式思考”等方式,让小模型不仅能模仿答案,还能学会推理过程。就让蒸馏变得更有效,因此越来越多的团队开始采用了。

 训练算法就像是种子,什么样的种子能结出什么样的果子。语料即训练的数据相当于是肥料,好的训练数据能让训练事半功倍,但主要还是看训练算法本身。

你应该懂的AI大模型(一) 之 浅知大模型的更多相关文章

  1. 华为有AI,这场转型战有点大

    华为有AI,这场转型战有点大 https://mp.weixin.qq.com/s/qnUP5cgbNxXcAT82NQARtA 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 华为有AI ...

  2. 偶尔转帖:AI会议的总结(by南大周志华)

    偶尔转帖:AI会议的总结(by南大周志华) 说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全. 同分的按字母序排列. 不很严谨地说, tier ...

  3. 颜色空间模型 与 Opencv中的HSV模型范围

    颜色空间总结 RGB.HSV.YUV 什么是颜色 Wiki是这样说的:颜色或色彩是通过眼.脑和我们的生活经验所产生的一种对光的视觉效应.嗯,简单点说,颜色就是人对光的一种感觉,由大脑产生的一种感觉.感 ...

  4. 浅谈管道模型(Pipeline)

    本篇和大家谈谈一种通用的设计与处理模型--Pipeline(管道). Pipeline简单介绍 Pipeline模型最早被使用在Unix操作系统中.据称,假设说Unix是计算机文明中最伟大的发明,那么 ...

  5. 大数据实时处理-基于Spark的大数据实时处理及应用技术培训

    随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...

  6. Hadoop MapReduce Task的进程模型与Spark Task的线程模型

    Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个 ...

  7. 以图搜图之模型篇: 基于 InceptionV3 的模型 finetune

    在以图搜图的过程中,需要以来模型提取特征,通过特征之间的欧式距离来找到相似的图形. 本次我们主要讲诉以图搜图模型创建的方法. 图片预处理方法,看这里:https://keras.io/zh/prepr ...

  8. 浅谈树模型与集成学习-从决策树到GBDT

    引言   神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...

  9. Coursera Deep Learning笔记 序列模型(一)循环序列模型[RNN GRU LSTM]

    参考1 参考2 参考3 1. 为什么选择序列模型 序列模型能够应用在许多领域,例如: 语音识别 音乐发生器 情感分类 DNA序列分析 机器翻译 视频动作识别 命名实体识别 这些序列模型都可以称作使用标 ...

  10. R2CNN模型——用于文本目标检测的模型

    引言 R2CNN全称Rotational Region CNN,是一个针对斜框文本检测的CNN模型,原型是Faster R-CNN,paper中的模型主要针对文本检测,调整后也可用于航拍图像的检测中去 ...

随机推荐

  1. Flask快速入门1

    因为新换了一个工作,项目使用了Flask框架技术,需要快速学习下,学过Django这个重量级的框架基础后,再去学习Flask框架相对还是容易的. 当然入门基础容易,要深入理解还是要慢慢花时间深耕练习使 ...

  2. 【JVM之内存与垃圾回收篇】本地方法接口

    本地方法接口 什么是本地方法 简单地讲,一个 Native Method 是一个 Java 调用非 Java 代码的接囗.一个 Native Method 是这样一个 Java 方法:该方法的实现由非 ...

  3. 2025年最流行的5个Python ASGI服务器及其核心特性与适用场景

    以下是2025年最流行的5个Python ASGI服务器及其核心特性与适用场景: 1. Uvicorn • 核心优势: • 基于uvloop和httptools,性能远超传统WSGI服务器,支持HTT ...

  4. 【开源推荐】AI Interviewer:基于Spring-Alibaba-AI的智能面试官系统(附GitHub实战教程)

    项目背景 作为开发者,你是否经历过: 技术面试时因紧张发挥失常? 刷了1000+LeetCode却不会表达解题思路? 花费上千元购买模拟面试服务? 今天推荐的AI Interviewer开源项目,正是 ...

  5. 基于Docker+DeepSeek+Dify:搭建企业级本地私有化知识库超详细教程

    在当今信息爆炸的时代,如何高效地管理和利用知识成为了企业竞争力的关键.为了帮助企业构建专属的知识库,本文将详细介绍如何使用Docker.DeepSeek和Dify来搭建一个企业级本地私有化知识库. 1 ...

  6. CentOS 7 部署 GLPI 系统及集成方案

    一.系统环境准备 1. 安装必要依赖 # 更新系统sudo yum update -y # 安装EPEL仓库sudo yum install -y epel-release # 安装必要组件sudo ...

  7. gRPC 和传统 RPC 有啥不一样?一篇讲清楚!

    现在大家做系统开发,都喜欢搞"微服务架构"--简单说就是把一个大系统拆成很多小服务,这样更灵活也更容易扩展.那这些服务之间怎么沟通呢?就得靠一种技术叫 RPC(远程过程调用).今天 ...

  8. app自动化的三大等待

    app自动化的三大等待与web自动化的三大等待的代码脚本一样 一.硬性等待 硬性等待无论元素是否出现,都必须等待设置的时间再继续执行后面的代码. 使用简单,但是容易浪费时间.所以一般和隐式等待或显式等 ...

  9. CTFHub技能树RCE命令注入

    1.命令注入 // 关键代码 <?php $res = FALSE; if (isset($_GET['ip']) && $_GET['ip']) {// 传入ip, $cmd ...

  10. 使用 Podman Desktop 在 Windows 11 WSL2 环境中启动宿主机的 GPU 进行深度学习

    使用 Podman Desktop 在 Windows 11 WSL2 环境中启动宿主机的 GPU 进行深度学习 概述 本文将指导您如何利用 Podman Desktop 安装时提供的 WSL2 环境 ...