MoE的相关内容 - 漫话开发者

2023-08-04 talkingdev

论文：SoftMoE，一种改进的稀疏混合专家模型，低成本提高模型容量

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...

2023-06-05 talkingdev

近日，谷歌通过基因搜索算法和海量TPU的使用，开发出了一种新的模型——Brainformer，其收敛速度比传统的Transformer模型快5倍，推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧，充分发挥了TPU的强大性能...