[开源]SEED-Bench-R1:基于强化学习的视频理解新基准
talkingdev • 2025-04-02
8182 views
腾讯ARC实验室最新发布的SEED-Bench-R1基准测试,为多模态大语言模型(MLLM)在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习(RL)和监督微调(SFT)等后训练方法,揭示了RL在视觉感知任务和数据效率方面的显著优势——在相同数据量下,RL训练的模型能更精准捕捉视频时空特征。但研究同时发现,RL方法在需要逻辑连贯性的任务(如因果推理)中表现欠佳,这为未来研究指明了改进方向。作为首个专门针对视频理解的RL基准,SEED-Bench-R1已开源其评估框架和数据集,或将推动视频理解、多模态学习与强化学习三大领域的交叉创新。