漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-03 talkingdev

muP:提升稀疏模型训练性能的革命性工具

muP 是一种被所有前沿模型实验室广泛使用的强大工具,用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型,从而显著提升训练性能,同时降低计算成本。通过muP,研...

Read More
2023-09-18 talkingdev

IBM正式挑战语言模型领域,推出开源MoE模型

IBM近日发布了一系列混合专家模型(Mixture-of-Experts,MoE),并公开了它们的架构和部分代码。MoE模型是一种稀疏模型,意味着在不牺牲准确性的情况下,可以节省计算资源。然而,训练这种模型却颇具挑战性。这次IBM...

Read More