漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

论文:为什么学习率可以转移?

talkingdev • 2024-03-05

572008 views

一篇理论论文试图解释MuP超参数转移的成功。其作者发现训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。

核心要点

  • MuP超参数转移成功的原因被解释了。
  • 训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。
  • 该研究为深度学习超参数转移提供了理论依据。

Read more >