漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动计划开源一些代码库的部分内容。MegaScale 系统的出现为训练大型语言模型提供了更高效、更经济的方法。

核心要点

  • 字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。
  • MegaScale 系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率。
  • 字节跳动计划开源 MegaScale 系统的部分代码库。

Read more >