漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-13 talkingdev

DeepScaleR:通过扩展RL训练,1.5B模型超越O1-Preview

近期,DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习(RL)训练,成功开发出一款1.5B参数的模型,其性能超越了O1-Preview。研究团队采用了一种独特的方法,即在RL训练过程中逐步增加上下文长度,从而...

Read More