微信扫码实时跟踪AI前沿
Video-R1项目提出了一种创新的基于规则的强化学习(RL)方法,专门用于视频推理任务。该方法采用了GRPO(Generalized Reinforcement Learning with Policy Optimization)的时间变体,并引入了新的数据集来支持训练...