漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-04 talkingdev

论文:SoftMoE,一种改进的稀疏混合专家模型,低成本提高模型容量

SoftMoE 是一种新的模型架构,它改进了稀疏的混合专家(MoE)模型。通过使用软分配方法,每个专家处理输入令牌的子集,SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中,SoftMoE的表现超过了标准的变压...

Read More
2023-06-05 talkingdev

Brainformer:以效率换取简单性

近日,谷歌通过基因搜索算法和海量TPU的使用,开发出了一种新的模型——Brainformer,其收敛速度比传统的Transformer模型快5倍,推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧,充分发挥了TPU的强大性能...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4