主页 > 人工智能 >

MoE演变过程

人工智能
2025-09-05 15:42:01

MoE演变过程

MoE演变过程 1 MoE1.1 BasicMoE1.2 SparseMoE1.3 Shared Expert SparseMoE

1 MoE 1.1 BasicMoE

用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。

论文：Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsitypaper： arxiv.org/abs/2101.03961

SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。

标签：

MoE演变过程由讯客互联人工智能栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“MoE演变过程”

上一篇
CopilotNextEditSuggestions（预览版

下一篇
【Linux】关于Docker的一系列问题。尤其是拉取东西时