强化学习的相关内容 - 漫话开发者

2025-04-02 talkingdev

[开源]SEED-Bench-R1：基于强化学习的视频理解新基准

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试，为多模态大语言模型（MLLM）在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习（RL）和监督微调（SFT）等后训练方法，揭示了RL在视觉感知任务和数...

2025-04-02 talkingdev

强化学习（RL）领域长期存在一个关键问题：是否需要一个足够强大的基础模型来支持涌现式推理能力的形成？最新研究Open-Reasoner-Zero通过系统性实验验证了基础模型对RL推理的重要作用。该研究在多种规模化的RL训练场...

2025-04-02 talkingdev

Open Hands团队最新发布的32B参数代码模型（Open Hands LM-32B）在强化学习（RL）训练框架下，基于Qwen架构实现了突破性进展。该模型在代理编码任务（agentic coding tasks）中的表现已超越许多参数规模更大的竞品，...

2025-04-01 talkingdev

Video-R1项目提出了一种创新的基于规则的强化学习（RL）方法，专门用于视频推理任务。该方法采用了GRPO（Generalized Reinforcement Learning with Policy Optimization）的时间变体，并引入了新的数据集来支持训练...

2025-03-26 talkingdev

FastCuRL-1.5B-Preview 是一种基于课程强化学习（Curriculum Reinforcement Learning）的慢思维推理模型，该模型在较少的训练步骤中实现了最先进的性能，展示了其在复杂推理任务中的潜力。相比传统方法，FastCuRL 通...

2025-03-19 talkingdev

近期，一项名为reWordBench的研究揭示了当前流行的奖励模型在面对提示词（prompt）的简单重述时表现出的脆弱性。该研究不仅提出了一个基准测试，还探讨了一种潜在的策略，以增强这些模型的鲁棒性。奖励模型在人工智...

2025-03-11 talkingdev

这项研究探索了如何通过强化学习来教授AI语言模型解决数独谜题，特别采用了Group Relative Policy Optimization (GRPO)技术，应用于Qwen 2.5等模型，无需依赖外部数据或更大模型的蒸馏。研究设计了一个多方面的奖励...

2025-03-11 talkingdev

最新研究展示了如何通过强化学习技术，使AI语言模型具备解决数独谜题的能力。该研究采用了Group Relative Policy Optimization (GRPO)方法，并在Qwen 2.5等模型上进行了实验，无需依赖外部数据或更大模型的蒸馏。研...