DeepScaleR:通过扩展RL训练,1.5B模型超越O1-Preview
talkingdev • 2025-02-13
28088 views
近期,DeepScaleR的研究成果引起了广泛关注。该研究通过扩展强化学习(RL)训练,成功开发出一款1.5B参数的模型,其性能超越了O1-Preview。研究团队采用了一种独特的方法,即在RL训练过程中逐步增加上下文长度,从而在不浪费计算资源的情况下,显著提升了AIME(AI Model Efficiency)的表现。这一发现不仅验证了方法的可行性,也为未来大规模模型的优化提供了新的思路。
核心要点
- DeepScaleR通过扩展RL训练开发出1.5B参数模型,性能超越O1-Preview。
- 研究团队在RL训练中逐步增加上下文长度,显著提升AIME表现。
- 该方法为未来大规模模型的优化提供了新的技术路径。