微信扫码实时跟踪AI前沿
近日,首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练,架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性,显著提升了训练效...