主页 > 人工智能  > 

MoE演变过程

MoE演变过程

MoE演变过程 1 MoE1.1 BasicMoE1.2 SparseMoE1.3 Shared Expert SparseMoE

1 MoE 1.1 BasicMoE

用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。

论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsitypaper: arxiv.org/abs/2101.03961

SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。

标签:

MoE演变过程由讯客互联人工智能栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“MoE演变过程