DeepScaleR的相关内容 - 漫话开发者

2025-02-13 talkingdev

DeepScaleR：通过扩展RL训练，1.5B模型超越O1-Preview

近期，DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习（RL）训练，成功开发出一款1.5B参数的模型，其性能超越了O1-Preview。研究团队采用了一种独特的方法，即在RL训练过程中逐步增加上下文长度，从而...