你应该懂的AI大模型(一) 之 浅知大模型
1、AI 大模型的训练过程
AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。
- 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子;
- 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”;
- 第三步:训练模型:将“孩子”(模型)放进图书馆进行学习,慢慢的“孩子”的语言能力和内容表达越来越接近预先准备的“教材”,形成“base model”或者称之为“uncensored model”。
这个时候的模型训练和使用过程中没有经过内容过滤或审查,没有敏感过滤。这类模型能够生成更加多样化和创造性的文本,由于训练数据中可能包含社会偏见,模型输出可能强化这些偏见,可能生成包含暴力、色情、歧视、谣言等不当内容,带来安全和法律风险,但是这个时候的模型更像是一个真实的人,会骂街会说怪话。
到了这一步模型的知识量是达标的,但是很难胜任就特定的工作,比如成为医生、律师等等,这个时候就需要对模型进行“职业培训”,就需要开展第四步工作。
- 第四步:微调模型:向“孩子”灌输价值观,比如“我爱我的祖国”、“医生不能辱骂病人”。
这个过程不影响 base model 的表现,一个 base model 可以调出成千上万个模型。 这部分的训练成本并没有那么高,基于一个好的大模型 base model 可以训练出自己需要的模型,被微调过的模型可以再次微调。
- 第五步:部署对话机器人,“孩子”已经经过职业培训了可以上岗了。
资源消耗最大的使训练步骤,训练过程可能需要上千张显卡,但是部署使用可能只需要几张显卡。就像学生学习需要建一所学校,但是上班只需要一个工位一样。
2、AI 大模型的训练方式
把“孩子”放进图书馆里,不去管他,可能过上一百年还是学不会书里面的内容,因此我们要帮助建立合理的学习方法。
需要一个能让一个“孩子”从话都不会说,到认识字、到理解书中的知识、到像人一样去思考的一整套学习模式或者叫学习框架,Transformer 就是这样一个框架.
Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为许多现代模型(如 BERT、GPT 等)的基础。
现在能叫得出名字的大语言模型多数都是基于Transformer这套框架训练的。那么问题来了,为什么使用的是一套学习框架,但是各个厂商训练出来的模型能力不一样呢,这是因为各个厂商的训练算法不一样,这一情况可以理解为,不同学校的孩子使用的教材是一样的,但是受学校教学质量的影响,教育出来的孩子也是千差万别,目前各大厂商在卷的就是训练算法。
上述的内容都是关于模型输出质量方面的,这是模型训练的最重要部分,但不是全部内容,因为在质量不变的情况下,模型训练可以无限的堆砌参数,不管是有效参数或者无效参数,只要模型持续增大,训练时间足够长,你的模型质量总能超越前一代模型。通过这种“大力出奇迹”训练出来的庞大模型是很难商用的,例如你训练需要 1000~2000 张显卡,最后部署需要 100张显卡,如此的成本很难推广使用。
当前的大模型为了质量高,进行了大量甚至巨量的训练,这个量一是指规模、二是指时间,规模大说明需要的显卡多、时间多,规模大说明训练出的模型参数多,参数越多说明模型的规模越大,模型的规模越大说明部署的时候需要的显卡资源越多。模型后面的参数 1B、3B,B 是指 billion。
1B(十亿)参数的模型在不同精度下占用的显存如下:
INT8(8位整型):1B参数占用约1GB显存。
FP16(半精度浮点):1B参数占用约2GB显存。
FP32(全精度浮点):1B参数占用约4GB显存。
因此模型训练不仅在卷质量也在卷成本。
3、什么是数据蒸馏
数据蒸馏(Data Distillation)是一种从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集的技术。其目标是在保持模型性能的同时,显著降低数据存储和计算成本。
所谓“蒸馏”,是让大模型的智慧“缩水不减质”地转移到小模型上的技术。它的过程可以用“老师带学生”的方式来形象化理解。我们可以将大语言模型看作经验丰富的教授,而小模型则是刚入门的学生。蒸馏的目标就是让这个学生不需要学习所有课程,却能掌握教授最重要的知识,并在考试,即推理和任务执行中表现得几乎一样好。
OpenAI在说 DeepSeek蒸馏 ChatGPT 的数据。(笔者认为 DeepSeek为了省事儿蒸馏了 OpenAI数据,违背了 OpenAI的商业协议,但是这个所谓的商业协议本身就是有争议的,原本免费的知识经过OpenAI 之后知识就成了收费的了,OpenAI本身自己就官司缠身)
之前OpenAI、Google这样的大公司之前的策略是“规模就是一切”,它们的盈利模式依赖于提供更强的大模型服务,而不是推广小模型。因此,它们更愿意投入更多计算资源去训练更大的模型,而不是优化小模型。并且蒸馏过程本身也是需要计算资源的,因为让大模型生成大量高质量数据,包括它们的推理步骤,也是一个昂贵的过程。既然都贵,那么在早期,很多团队宁愿直接用大模型,而不是投入额外资源去蒸馏小模型。DeepSeek引入了“链式思考”等方式,让小模型不仅能模仿答案,还能学会推理过程。就让蒸馏变得更有效,因此越来越多的团队开始采用了。
训练算法就像是种子,什么样的种子能结出什么样的果子。语料即训练的数据相当于是肥料,好的训练数据能让训练事半功倍,但主要还是看训练算法本身。
你应该懂的AI大模型(一) 之 浅知大模型的更多相关文章
- 华为有AI,这场转型战有点大
华为有AI,这场转型战有点大 https://mp.weixin.qq.com/s/qnUP5cgbNxXcAT82NQARtA 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 华为有AI ...
- 偶尔转帖:AI会议的总结(by南大周志华)
偶尔转帖:AI会议的总结(by南大周志华) 说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全. 同分的按字母序排列. 不很严谨地说, tier ...
- 颜色空间模型 与 Opencv中的HSV模型范围
颜色空间总结 RGB.HSV.YUV 什么是颜色 Wiki是这样说的:颜色或色彩是通过眼.脑和我们的生活经验所产生的一种对光的视觉效应.嗯,简单点说,颜色就是人对光的一种感觉,由大脑产生的一种感觉.感 ...
- 浅谈管道模型(Pipeline)
本篇和大家谈谈一种通用的设计与处理模型--Pipeline(管道). Pipeline简单介绍 Pipeline模型最早被使用在Unix操作系统中.据称,假设说Unix是计算机文明中最伟大的发明,那么 ...
- 大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
- Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个 ...
- 以图搜图之模型篇: 基于 InceptionV3 的模型 finetune
在以图搜图的过程中,需要以来模型提取特征,通过特征之间的欧式距离来找到相似的图形. 本次我们主要讲诉以图搜图模型创建的方法. 图片预处理方法,看这里:https://keras.io/zh/prepr ...
- 浅谈树模型与集成学习-从决策树到GBDT
引言 神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
- Coursera Deep Learning笔记 序列模型(一)循环序列模型[RNN GRU LSTM]
参考1 参考2 参考3 1. 为什么选择序列模型 序列模型能够应用在许多领域,例如: 语音识别 音乐发生器 情感分类 DNA序列分析 机器翻译 视频动作识别 命名实体识别 这些序列模型都可以称作使用标 ...
- R2CNN模型——用于文本目标检测的模型
引言 R2CNN全称Rotational Region CNN,是一个针对斜框文本检测的CNN模型,原型是Faster R-CNN,paper中的模型主要针对文本检测,调整后也可用于航拍图像的检测中去 ...
随机推荐
- mac mamp php扩展安装
官网下载需要开启的php扩展 PHP扩展下载官网地址 解压扩展包,指定mamp所使用的php版本的phpize编译安装 # 在解压的扩展包中执行以下命令 /Applications/MAMP/bin/ ...
- Django实战项目-学习任务系统-兑换物品管理
接着上期代码框架,开发第5个功能,兑换物品管理,再增加一个学习兑换物品表,主要用来维护兑换物品,所需积分,物品状态等信息,还有一个积分流水表,完成任务奖励积分,兑换物品消耗积分. 要想激励一个人的学习 ...
- Linux 下如何修改密码有效期?
有时我们连接远程服务器的时候,提示密码过期,需要修改密码才能登录,这时可以用chage命令来调整下用户密码的有效期,使用户可以继续使用. chage命令 chage命令用于查看以及修改用户密码的有效期 ...
- MQ 如何保证数据一致性?
前言 上个月,我们有个电商系统出了个灵异事件:用户支付成功了,但订单状态死活不改成"已发货". 折腾了半天才定位到问题:订单服务的MQ消息,像人间蒸发一样消失了. 这个Bug让我明 ...
- 【JVM之内存与垃圾回收篇】垃圾回收概述
垃圾回收概述 概念 这次我们主要关注的是黄色部分,内存的分配与回收 垃圾收集 垃圾收集,不是 Java 语言的伴生产物.早在 1960 年,第一门开始使用内存动态分配和垃圾收集技术的 Lisp 语言诞 ...
- 关于TFDMemtable的使用场景【1】提供快速查询
建立内存表非常easy.看代码: begin createZipTable; FillZipCodeData; end: procdure CreateZipCodeTable; var Defs, ...
- 探秘Transformer系列之(26)--- KV Cache优化---分离or合并
探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并 目录 探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并 0x00 ...
- 配置jenkins的shell自动打包的脚本
#!/bin/bash#服务名称SERVER_NAME=jenkins-test# 源jar路径,mvn打包完成之后,target目录下的jar包名称,也可选择成为war包,war包可移动到Tomca ...
- MySQL 中 TEXT 类型最大可以存储多长的文本?
在MySQL中,TEXT类型用于存储较长的文本数据.TEXT类型的最大存储长度取决于表的字符集和存储引擎.具体来说,TEXT类型的最大存储长度为: TEXT:最大存储 65,535 字节(约 64 K ...
- nodejs判断文件的字符集编码
----------------------------------- 通过前2字节判断: 编码 16进制数 unicode FF FE 或 FE FF utf-8 EF BB 代码: var fs ...