为了实现大模型的高效训练和推理，混合专家模型MoE便横空出世。

大模型发展即将进入下一阶段但目前仍面临众多难题。为满足与日俱增的实际需求，大模型参数会越来越大，数据集类型越来越多，从而导致训练难度大增，同时也提高了推理成本。为了实现大模型的高效训练和推理，混合专家模型MoE便横空出世。

MoE结构的发展

Vanilla MoE

Export Network，用于学习不同数据，一个Gating Network用于分配每个Expert的输出权重。

Sparse MoE

Experts的输出是稀疏的，只有部分的 experts 的权重> 0，其余=0 的 expert 直接不参与计算

Expert Balancing问题

不同 experts 在竞争的过程中，会出现“赢者通吃”的现象：前期变现好的 expert 会更容易被 gating network 选择，导致最终只有少数的几个 experts 真正起作用

Transformer MoE

GShard

Transformer的encoder和decoder中，每隔一个（every other）FFN层，替换成position-wise MoE层
Top-2 gating network

Switch Transformer

简化了MoE的routing算法，gating network 每次只 route 到 1 个 expert

GLaM

Gshard结构
Scale参数量
降低训练推理成本

MoE的分布式通信和MindSpore优化

MoE结构和普通的Dense模型的差异在于，其需要额外的AllToAll通信，来实现数据的路由(Gating)和结果的回收。而AllToAll通信会跨Node（服务器）、跨pod（路由），进而造成大量的通信阻塞问题

MindSpore的MoE优化

大模型训练主要瓶颈在于片上内存与卡间通信。常用的内存优化手段：

1）MoE并行：将不同的专家切分到不同的卡上，由于MoE的路由机制，需要使用AllToAll通信，将token发送到正确的卡上。对AllToAll的优化：分级AllToAll、Group-wise AllToAll等。

2）优化器异构：大模型训练常使用的adam系列优化器，其占用的内存往往是模型参数本身的2倍或以上，可以将优化器状态存储在Host内存上。

3）多副本并行：将串行的通信、计算拆分成多组，组件流水，掩盖通信时间。

MindSpore已使能上述优化，大幅提升了万亿参数稀疏模型的训练吞吐

Mixtral 8x7b MoE大模型

Mixtral的基础模型Mistral

RoPE
RMSNorm
Transformer decoder
Grouped Multi-Query Attention
Sliding window attention: 优化随着序列长度增加而增长的显存占用和计算消耗

Mixtral

8个expert（类GPT-4）
Top2 gating

MoE Layer的MindSpore实现

Mindformers的Mixtral支持

基于MindFormers实现Mixtral-8x7B MoE模型。关键结构: GQA, RoPE, RMSNorm, SiluMoE配置: 8 Experts, TopK=2, capacity c=1.1加载开源的Mixtral权重和tokenizer，推理结果对齐HF.
4机32卡EP,PP等多维混合并行，基于自有数据集试验性训练收敛符合预期。200 epoch loss 100.02

EP=8,MP=1时性能最佳,约1147 tokens/s/p。

MoE和lifelong learning

终身学习/持续学习的性质

性质	定义
知识记忆(knowledge retention)	模型不易产生遗忘灾难
前向迁移(forward transfer)	利用旧知识学习新任务
后向迁移(backward transfer)	新任务学习后提升旧任务
在线学习(online learning)	连续数据流学习
无任务边界(No task boudaries)	不需要明确的任务或数据定义
固定模型容量(Fixed model capacity)	模型大小不随任务和数据变化

MoE模型+终身学习

性质
知识记忆(knowledge retention)	√
前向迁移(forward transfer)	√
后向迁移(backward transfer)	-
在线学习(online learning)	×
无任务边界(No task boudaries)	√
固定模型容量(Fixed model capacity)	√

MoE的特点：

多个Expert分别处理不同分布（domain/topic）的数据
推理仅需要部分Expert

LLM的终身学习：

世界知识底座持续学习。
Expert可插拔
Gating Network可增删。

MoE+终身学习的典型工作

Lifelong-MoE

扩展expert和gating network的维度
冻结旧的expert和gating network维度
使用正则克服遗忘灾难

Pangu-sigma

Random Routed Experts：

第一层，根据任务分配给不同的专家组（多个expert构成一个专家组，供一个task/domain使用）
第二层，使用组内随机Gating，让专家组的expert可以负载均衡。

这样可以保证某个领域对应的expert可以直接被抽取出来作为单个模型使用。

Mixtral 8x7b Demo

Mistral-MindSpore: https://github.com/lvyufeng/mistral-mindspore

Mindformer(MoE预训练)：https://gitee.com/mindspore/mindformers/

点击关注，第一时间了解华为云新鲜技术~

想做大模型开发前，先来了解一下MoE的更多相关文章

想做Android Wear开发？你得先搞明白这四件事
手环和手表的腕上穿戴之争,随着Apple Watch发布和Android Wear不断完善而告一段落.尽管续航上略有缺陷,但手表以其类似手机可扩展的生态环境赢得了众多巨头的支持. Google曾透露, ...
如何在mac上使用idea做大数据开发
1 软件包下载 jdk1.8 (jdk1.8.0_231) idea(包括2018,2019) (ideaIC-2019.3.3/ideaIC-2018.3.5) 汉化包:汉化包.rar maven3 ...
华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
Java开发想尝试大数据和数据挖掘，如何规划学习？
大数据火了几年了,但是今年好像进入了全民大数据时代,本着对科学的钻(zhun)研(bei)精(tiao)神(cao),我在17年年初开始自学大数据,后经过系统全面学习,于这个月跳槽到现任公司. 现在已 ...
研发流程接口定义&开发&前后端联调线上日志观察模型变动
阿里等大厂的研发流程,进去前先了解一下_我们一起进大厂 - SegmentFault 思否 https://segmentfault.com/a/1190000021831640 接口定义测试用例评 ...
【大型软件开发】浅谈大型Qt软件开发（一）开发前的准备——在着手开发之前，我们要做些什么？
前言最近我们项目部的核心产品正在进行重构,然后又是年底了,除了开发工作之外项目并不紧急,加上加班时间混不够了....所以就忙里偷闲把整个项目的开发思路聊一下,以供参考. 鉴于接下来的一年我要操刀这个 ...
想研究BERT模型？先看看这篇文章吧！
最近,笔者想研究BERT模型,然而发现想弄懂BERT模型,还得先了解Transformer. 本文尽量贴合Transformer的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进 ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
从零开始编写自己的C#框架（2）——开发前准备工作
没想到写了个前言就受到很多朋友的支持,大家的推荐就是我最大的动力(推荐得我热血沸腾,大家就用推荐来猛砸我吧O^-^O),谢谢大家支持. 其实框架开发大家都知道,不过要想写得通俗点,我个人觉得还是挺吃力 ...

随机推荐

elementui表格内容超出显示省略号
有些时候表格的内容太长了: 但是elementui中的表格,会进行换行处理: 此时表格的高度就会发生变化这样就不好看,此时就要进行省略号来出来这个问题: el-table是有这个控制属性的::sho ...
【二】MADDPG多智能体算法实现(parl)【追逐游戏复现】
相关文章: [一]MADDPG-单智能体|多智能体总结(理论.算法) [二]MADDPG多智能体深度强化学习算法算法实现(parl)--[追逐游戏复现] 程序链接:直接fork:MADDPG多智能体深 ...
numpy数组拼接方法介绍(concatenate)---一次性完成多个数组的拼接
1.数组拼接方法一思路:首先将数组转成列表,然后利用列表的拼接函数append().extend()等进行拼接处理,最后将列表转成数组. 示例1: >>> import numpy ...
东吴名贤传<一>骆统传
骆俊,字孝远,会稽郡乌伤县人(今义乌市),少有才干,察孝廉,补尚书郎,擢拜陈相,为东汉末年陈王刘宠的国相,时袁术僭号,兄弟忿争,天下鼎沸,群贼并起,陈与比界,奸慝四布,俊厉威武,保疆境,贼不敢犯.养济 ...
Python下的三维建模和可视化
本文介绍基于AnyCAD Rapid Py三维图形平台开发Python的三维应用 1 准备工作 1.1 安装 vc_resit 2022 在Windows下,AnyCAD Rapid SDK依赖Vis ...
raise的研究发现，弄懂，try except 一定要raise 否则非常不利于调试。
现在很多人都反应下载订单后提示下载成功,但是软件中却没有这个订单,经过研究发现原因是我用了 try except end; 这个结构导致的,当订单下载过程中遇到错误的时候,程序没有 ...
从零开始的 dbt 入门教程（dbt core 开发进阶篇）
引在上一篇文章中,我们花了专门的篇幅介绍了 dbt 更多实用的命令,那么我们继续按照之前的约定来聊 dbt 中你可能会遇到的疑惑以及有用的概念,如果你是 dbt 初学者,我相信如下知识点一定会对你有 ...
快速上手typescript（基础篇）
壹 ❀ 引在javascript开发中,你可能也遇到过我这样的苦恼,在维护某段几年前的老旧代码时,我发现了某个数据加工方法fn,而且根据现有逻辑来看fn的某个参数是一个数组,因为新需求我需要对数组做 ...
Shell 特殊符号(变量)用法小结
Shell | 特殊变量 $n 基本语法: $n (功能描述:n 为数字,$0 代表该脚本名称,$1-$9 代表第一到第九个参数,十以上的参数,十以上的参数需要用大括号包含,如${10}) 例如: ...
springboot中前端ajax如何给controller提交数组参数？
说明我有个需求,前端批量添加一堆商品明细.也就是说会有一个商品ID,然后一堆商品明细,多行. 如此一来,针对后端接口肯定是要以数组或列表方式接收这个商品明细数组了. 前端代码关键地方在于以form ...

想做大模型开发前，先来了解一下MoE