MoE演变过程
- 人工智能
- 2025-09-05 15:42:01

MoE演变过程 1 MoE1.1 BasicMoE1.2 SparseMoE1.3 Shared Expert SparseMoE 1 MoE 1.1 BasicMoE
用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。
1.2 SparseMoE这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。
论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsitypaper: arxiv.org/abs/2101.03961SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和
1.3 Shared Expert SparseMoE因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。