你应该懂的AI大模型(一) 之 浅知大模型
1、AI 大模型的训练过程
AI 大模型的训练就如同让一名孩童从不会说话一步步培养成高级知识分子或者专家的过程。
- 第一步:收集数据,将海量的知识与文章收集起来作为学习资料教给这个孩子;
- 第二步:预处理:去掉数据中的低质量的内容,整理成教材并形成一个“图书馆”;
- 第三步:训练模型:将“孩子”(模型)放进图书馆进行学习,慢慢的“孩子”的语言能力和内容表达越来越接近预先准备的“教材”,形成“base model”或者称之为“uncensored model”。
这个时候的模型训练和使用过程中没有经过内容过滤或审查,没有敏感过滤。这类模型能够生成更加多样化和创造性的文本,由于训练数据中可能包含社会偏见,模型输出可能强化这些偏见,可能生成包含暴力、色情、歧视、谣言等不当内容,带来安全和法律风险,但是这个时候的模型更像是一个真实的人,会骂街会说怪话。
到了这一步模型的知识量是达标的,但是很难胜任就特定的工作,比如成为医生、律师等等,这个时候就需要对模型进行“职业培训”,就需要开展第四步工作。
- 第四步:微调模型:向“孩子”灌输价值观,比如“我爱我的祖国”、“医生不能辱骂病人”。
这个过程不影响 base model 的表现,一个 base model 可以调出成千上万个模型。 这部分的训练成本并没有那么高,基于一个好的大模型 base model 可以训练出自己需要的模型,被微调过的模型可以再次微调。
- 第五步:部署对话机器人,“孩子”已经经过职业培训了可以上岗了。
资源消耗最大的使训练步骤,训练过程可能需要上千张显卡,但是部署使用可能只需要几张显卡。就像学生学习需要建一所学校,但是上班只需要一个工位一样。
2、AI 大模型的训练方式
把“孩子”放进图书馆里,不去管他,可能过上一百年还是学不会书里面的内容,因此我们要帮助建立合理的学习方法。
需要一个能让一个“孩子”从话都不会说,到认识字、到理解书中的知识、到像人一样去思考的一整套学习模式或者叫学习框架,Transformer 就是这样一个框架.
Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并成为许多现代模型(如 BERT、GPT 等)的基础。
现在能叫得出名字的大语言模型多数都是基于Transformer这套框架训练的。那么问题来了,为什么使用的是一套学习框架,但是各个厂商训练出来的模型能力不一样呢,这是因为各个厂商的训练算法不一样,这一情况可以理解为,不同学校的孩子使用的教材是一样的,但是受学校教学质量的影响,教育出来的孩子也是千差万别,目前各大厂商在卷的就是训练算法。
上述的内容都是关于模型输出质量方面的,这是模型训练的最重要部分,但不是全部内容,因为在质量不变的情况下,模型训练可以无限的堆砌参数,不管是有效参数或者无效参数,只要模型持续增大,训练时间足够长,你的模型质量总能超越前一代模型。通过这种“大力出奇迹”训练出来的庞大模型是很难商用的,例如你训练需要 1000~2000 张显卡,最后部署需要 100张显卡,如此的成本很难推广使用。
当前的大模型为了质量高,进行了大量甚至巨量的训练,这个量一是指规模、二是指时间,规模大说明需要的显卡多、时间多,规模大说明训练出的模型参数多,参数越多说明模型的规模越大,模型的规模越大说明部署的时候需要的显卡资源越多。模型后面的参数 1B、3B,B 是指 billion。
1B(十亿)参数的模型在不同精度下占用的显存如下:
INT8(8位整型):1B参数占用约1GB显存。
FP16(半精度浮点):1B参数占用约2GB显存。
FP32(全精度浮点):1B参数占用约4GB显存。
因此模型训练不仅在卷质量也在卷成本。
3、什么是数据蒸馏
数据蒸馏(Data Distillation)是一种从大规模数据集中提取关键信息,生成一个规模更小但更具代表性的合成数据集的技术。其目标是在保持模型性能的同时,显著降低数据存储和计算成本。
所谓“蒸馏”,是让大模型的智慧“缩水不减质”地转移到小模型上的技术。它的过程可以用“老师带学生”的方式来形象化理解。我们可以将大语言模型看作经验丰富的教授,而小模型则是刚入门的学生。蒸馏的目标就是让这个学生不需要学习所有课程,却能掌握教授最重要的知识,并在考试,即推理和任务执行中表现得几乎一样好。
OpenAI在说 DeepSeek蒸馏 ChatGPT 的数据。(笔者认为 DeepSeek为了省事儿蒸馏了 OpenAI数据,违背了 OpenAI的商业协议,但是这个所谓的商业协议本身就是有争议的,原本免费的知识经过OpenAI 之后知识就成了收费的了,OpenAI本身自己就官司缠身)
之前OpenAI、Google这样的大公司之前的策略是“规模就是一切”,它们的盈利模式依赖于提供更强的大模型服务,而不是推广小模型。因此,它们更愿意投入更多计算资源去训练更大的模型,而不是优化小模型。并且蒸馏过程本身也是需要计算资源的,因为让大模型生成大量高质量数据,包括它们的推理步骤,也是一个昂贵的过程。既然都贵,那么在早期,很多团队宁愿直接用大模型,而不是投入额外资源去蒸馏小模型。DeepSeek引入了“链式思考”等方式,让小模型不仅能模仿答案,还能学会推理过程。就让蒸馏变得更有效,因此越来越多的团队开始采用了。
训练算法就像是种子,什么样的种子能结出什么样的果子。语料即训练的数据相当于是肥料,好的训练数据能让训练事半功倍,但主要还是看训练算法本身。
你应该懂的AI大模型(一) 之 浅知大模型的更多相关文章
- 华为有AI,这场转型战有点大
华为有AI,这场转型战有点大 https://mp.weixin.qq.com/s/qnUP5cgbNxXcAT82NQARtA 李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 华为有AI ...
- 偶尔转帖:AI会议的总结(by南大周志华)
偶尔转帖:AI会议的总结(by南大周志华) 说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全. 同分的按字母序排列. 不很严谨地说, tier ...
- 颜色空间模型 与 Opencv中的HSV模型范围
颜色空间总结 RGB.HSV.YUV 什么是颜色 Wiki是这样说的:颜色或色彩是通过眼.脑和我们的生活经验所产生的一种对光的视觉效应.嗯,简单点说,颜色就是人对光的一种感觉,由大脑产生的一种感觉.感 ...
- 浅谈管道模型(Pipeline)
本篇和大家谈谈一种通用的设计与处理模型--Pipeline(管道). Pipeline简单介绍 Pipeline模型最早被使用在Unix操作系统中.据称,假设说Unix是计算机文明中最伟大的发明,那么 ...
- 大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
- Hadoop MapReduce Task的进程模型与Spark Task的线程模型
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的:而Spark Task则是基于线程模型的. 多进程模型和多线程模型 所谓的多进程模型和多线程模型,指的是同一个 ...
- 以图搜图之模型篇: 基于 InceptionV3 的模型 finetune
在以图搜图的过程中,需要以来模型提取特征,通过特征之间的欧式距离来找到相似的图形. 本次我们主要讲诉以图搜图模型创建的方法. 图片预处理方法,看这里:https://keras.io/zh/prepr ...
- 浅谈树模型与集成学习-从决策树到GBDT
引言 神经网络模型,特别是深度神经网络模型,自AlexNet在Imagenet Challenge 2012上的一鸣惊人,无疑是Machine Learning Research上最靓的仔,各种进 ...
- Coursera Deep Learning笔记 序列模型(一)循环序列模型[RNN GRU LSTM]
参考1 参考2 参考3 1. 为什么选择序列模型 序列模型能够应用在许多领域,例如: 语音识别 音乐发生器 情感分类 DNA序列分析 机器翻译 视频动作识别 命名实体识别 这些序列模型都可以称作使用标 ...
- R2CNN模型——用于文本目标检测的模型
引言 R2CNN全称Rotational Region CNN,是一个针对斜框文本检测的CNN模型,原型是Faster R-CNN,paper中的模型主要针对文本检测,调整后也可用于航拍图像的检测中去 ...
随机推荐
- centos安装php环境
安装 PHP 所需扩展 yum install libxml2 libxml2-devel openssl openssl-devel bzip2 bzip2-devel libcurl libcur ...
- 服务器Go程序意外停止自动重启
判断进程是否挂掉 ps -ef | grep ./blog |wc -l 如果输出为1,说明进程挂掉了 如果输出为2,说明进程正常运行 编辑脚本来检测和完成重启 vim restart.sh 逻辑代码 ...
- WebSocket 的产生
HTTP 不断轮询 怎么样才能在用户不做任何操作的情况下,网页能收到消息并发生变更. 最常见的解决方案是,网页的前端代码里不断定时发 HTTP 请求到服务器,服务器收到请求后给客户端响应消息. 这种方 ...
- Win环境下的批处理命令和JScript脚本结合使用笔记
最近工作有接触到.bat 批处理命令,在Win环境下编写的时候基于以前的编码习惯,觉得批处理语法可读性较差,于是学习了解了一下结合JScript的用法,特此记录. 什么是JScript JScript ...
- 一个基于 .NET 开源免费的异地组网和内网穿透工具
前言 今天大姚给大家分享一个基于 .NET 开源免费的异地组网和内网穿透工具:linker. 工具介绍 linker是一个基于 .NET8 开源免费(GPL-2.0 license)的异地组网和内网穿 ...
- 【JVM之内存与垃圾回收篇】直接内存
直接内存 Direct Memory 不是虚拟机运行时数据区的一部分,也不是<Java 虚拟机规范>中定义的内存区域. 直接内存是在 Java 堆外的.直接向系统申请的内存区间. 来源于 ...
- 【Node.js】npm配置国内镜像源
[服务器]npm配置国内镜像源 零.问题 配置Node.js的HTTPS的时候,下载不了 一.解决 这里使用的是淘宝的镜像: npm config set registry https://regis ...
- 如果在安装32位Oracle客户端组件的情况下64位模式运行, 将出现此问题.
场景重现 在一台Windows 7 32-bit电脑上 安装了Oracle 11gR2 32-bit的客户端 用 VS2010 写的一个基于数据库驱动的项目 操作Oracle数据库都挺正常的 后来.. ...
- sql server2008出现set 选项的设置不正确:"ARITHABORT”
( SELECT STUFF(( SELECT '','' + CODE FROM INVNEWSAL11 WHERE (MASTERI=BILRCV.SRCERI) OR (LINKERI IN ( ...
- 第八届机械工程与应用复合材料国际会议(MEACM 2025)
第八届机械工程与应用复合材料国际会议(MEACM 2025) 吉隆坡,马来西亚 2025年8月25-27日 会议简介:2025年第八届机械工程与应用复合材料国际会议(MEACM 2025)将于2025 ...