MoE模型的相关内容 - 漫话开发者

2024-03-28 talkingdev

Databrix和Mosaic联手打造132B参数MoE模型

科技巨头Databrix与Mosaic合作，成功训练了一个具有132B参数的混合专家（MoE）模型。该模型在3000个H100 GPU上进行了训练，目前其权重文件已经公开发布。此外，该模型也已在Databricks API上提供服务，供企业和开发...

2024-02-20 talkingdev

谷歌发布了一款新的 MoE 模型，命名为 Gemini 1.5 Pro，它的性能可以与 Gemini 1.0 Ultra 媲美。同时，它支持上下文1百万令牌，并且相比较于 Gemini 1.0 Ultra，使用更少的计算资源，因为它更小巧。这个模型是本地多...

2024-01-11 talkingdev

谷歌的开关Transformer是最早成功的专家混合模型之一。现在，该模型的代码已经在HuggingFace平台上发布，供人们使用。

2023-09-18 talkingdev

IBM近日发布了一系列混合专家模型（Mixture-of-Experts，MoE），并公开了它们的架构和部分代码。MoE模型是一种稀疏模型，意味着在不牺牲准确性的情况下，可以节省计算资源。然而，训练这种模型却颇具挑战性。这次IBM...

2023-08-04 talkingdev

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...