谷歌完成5万多芯片的最大分布式LLM训练任务

talkingdev • 2023-11-13

897535 views

谷歌利用MaxText和Jax训练技术，同时在超过5万个芯片上进行了LLM（语言模型）训练任务，保持了66%以上的利用率，成为了最佳MFU的强有力竞争者。该项目主要基于专有技术，但其中展示了一些有趣的细节，对于其他大规模分布式计算团队有所帮助。