新闻中心
PRO | 为什么基于 MoE 的大模型更值得关注?
2025年,几乎 ai 的每个领域都在以前所未有的速度进化,同时,ai也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,transformer 作为 ai 大模型主流架构的局面是否会撼动?为何探索基于 moe (专家混合)架构的大模型成为业内新趋势?大型视觉模型 (lvm)能否成为通用视觉的新突破?...我们从过去的半年发布的2025年本站pro会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2025年 week50 业内通讯 ?
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

日期:12 月 12 日
事件:Mistral AI 开源了基于 MoE(Mixture-of-Experts,专家混合)架构的模型 Mixtral 8x7B,其性能达到 Llama 2 70B 和 GPT-3.5 的水平"的事件进行延展解读。
首先,弄清楚 MoE 是什么及其来龙去脉
1、概念:
MoE(Mixture of Experts)是一种混合模型,由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。MoE 的核心思想是使用一个门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。
2、主要构成:
混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE 通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。
① 在门控网络的训练中,每个样本都会被分配到一个或多个专家中;
② 在专家网络的训练中,每个专家都会被训练以最小化其分配给它的样本的误差。
3、MoE 的「前身」:
MoE 的「前身」是集成学习(Ensemble Learning)。集成学习是通过训练练多个模型(基学习器)未解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成学习的主要目标是通过减少过拟合,提高泛化能力,以提高预测性能。常见的集成学习方法包括 Bagging,Boosting 和 Stacking。
4、MoE 历史来源:
① MoE 的根源可以追溯到 1991 年的论文《 Adaptive Mixture of Local Experts》。这个想法与集成方法类似,目的是为由不同子网络组成的系统提供一种监督过程,每个单独的网络或专家都专门处理输入空间的不同区域。通过门控网络确定每个专家的权重。在训练过程中,专家和门控都会被训练。
② 在 2010 年至 2015 年期间,两个不同的研究领域对 MoE 的进一步发展做出了贡献:
一是专家作为组件:在传统的 MoE 设置中,整个系统包括一个门控网络和多个专家。MoEs 作为整个模型已经在支持向量机、高斯过程和其他方法中进行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作为更深层网络组件的可能性。这使得模型可以同时变得庞大和高效。
另一个是条件计算:传统的网络通过每一层处理所有输入数据。在这个时期,Yoshua Bengio 研究了根据输入 token 动态激活或停用组件的方法。
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
③ 由此,人们开始在自然语言处理的背景下探索专家混合模型。在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通过引入稀疏性,将其扩展到了一个 137B LSTM,从而实现了高规模下的快速推理。
为什么基于 MoE 的大模型值得关注?
1、通常来讲,模型规模的扩展会导致训练成本显著增加,计算资源的限制成为了大规模密集模型训练的瓶颈。为了解决这个问题,基于稀疏 MoE 层的深度学习模型架构被提出。
2、稀疏混合专家模型(MoE)是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数,而指令调优(instruction tuning)则是一种训练 LLM 遵循指令的技术。
3、MoE+指令微调技术的结合,可大幅度提升语言模型的性能。2025 年 7 月,谷歌、UC 伯克利和 MIT 等机构的研究者发表了论文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,证明了混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。
① 具体来说,研究者在一组经过指令微调的稀疏混合专家模型 FLAN-MOE 中,使用稀疏激活 MoE,并用 MoE 层替换 Transformer 层的前馈组件,以提供更优的模型容量与计算灵活性;其次,在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。
② 研究者基于上述方法研究在没有指令调优的情况下在单个下游任务进行直接微调,在指令调优后对下游任务进行 in-context 少样本或零样本泛化,以及在指令调优后对单个下游任务进行进一步微调等三种实验设置下 LLM 的性能区别。
③ 实验结果表明,如果不使用指令调优,MoE 模型的性能通常不如与之计算能能力相当的密集模型。但当结合指令调优时,情况发生了变化。指令调优后的 MoE 模型(Flan-MoE)在多个任务上的表现超越了更大的密集模型,即使
MoE 模型的计算成本只是密集模型的三分之一。与密集模型相比。MoE 模型从指令调优中获得的性能提升更为显著,因此当考虑计算效率与性能时,MoE 将成为大型语言模型训练的有力工具。
4、此次,发布的 Mixtral 8x7B 模型同样采用了稀疏混合专家网络。
① Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层网络中,对于每个 token,路由器网络选择 8 组中的两组(专家),来处理 token 并将其输出累加组合。
② Mixtral 8x7B 模型在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。
MoE 的重要优势:稀疏性是什么?
1、在传统的密集模型中,对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中,处理输入数据时只有少数专家模型被激活成者使用,而大部分专家模型处于未被激活状态,这种状态便是「稀疏「。而稀疏性是混合专家模型的重要优点,也是提升模型训练和推理过程的效率的关键。

以上就是PRO | 为什么基于 MoE 的大模型更值得关注?的详细内容,更多请关注其它相关文章!
# 理论
# 开好
# 营销推广的控制措施
# 网站建设推销
# 酒吧营销推广论文
# 泰州抖音营销推广系统
# 香港视频网站优化推广
# 闵行网站建设代理加盟
# 便利店推广营销方案
# 网站优化的核心
# 四川营销推广怎么联系
# 济南网站推广费用是多少
# 是一个
# 都是
# 都能
# 是一种
# 省电
# 更值得
# 多个
# 门控
# llama
# mistral ai
# 子网
# 技术趋势
# 机器之心pro
# moe
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
animal是什么意思
如何以管理员身份打开cmd命令行窗口
单片机log怎么看
sofa是什么意思
春运高速高铁抢票攻略
j*a里数组怎么赋值
选哪个折叠屏手机好用
酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南
什么是夸克模组文件格式
春运抢票最好抢什么票啊
喇叭上POWER4欧是什么意思
苹果16关闭哪些功能好
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
固态硬盘坏了如何换硬盘
typescript卸载不掉怎么办
为什么进行域名解析
oppo手机nfc功能是什么意思
如何判断固态硬盘
如何在命令行执行存储过程
如何寻找和修复无法在 AI 中找到文件的问题
300秒等于多少分钟
红米手机怎么设置变成5G手机
夸克网盘下载为什么要钱
域名批量查询工具有哪些
什么是域名解析地址
没网环境如何安装typescript
单片机怎么加死循环
js怎么设置typescript
春运抢票还用取票吗
ready是什么意思
五十铃x-power是什么意思
固态硬盘如何装入机箱
电瓶车屏幕上显示power是什么意思
阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程
单片机蜂鸣器响了怎么停
ssd固态硬盘如何选择
put linux命令如何书写
焊机上power灯闪是什么意思
如何提高import命令的性能
typescript在浏览器里怎么用
照相机上面power是什么意思
征信不好如何恢复信誉度 征信不好恢复信誉度的方法
ssd固态硬盘如何安装
typescript怎么解析vue TypeScript在vue中的使用最新解读
a股等权市盈率中位数是什么意思
如何安装tree命令
linux如何查看命令的参数
单片机怎么控制闪烁技术
debian和ubuntu的区别是什么
苹果16自带配件有哪些


2024-08-08
浏览次数:次
返回列表