漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

Nous研究利用他们的Yarn方法对Mistral 7B进行了微调,可以处理长达128k的语境。它在短序列长度上显示出最小的退化,并在长文档上大大提高了性能。

核心要点

  • Nous研究使用Yarn方法对Mistral 7B模型进行优化
  • Mistral 7B模型现在可以处理长达128k的语境
  • 该模型在短序列长度上有最小的退化,但在长文档上性能大大提高

Read more >