漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-24 talkingdev

首个基于Muon优化器训练的大规模模型Moonlight 16B发布

近日,首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练,架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性,显著提升了训练效...

Read More