计算反馈的相关内容 - 漫话开发者

2023-05-23 talkingdev

通过强化学习训练扩散模型

在最近的工作中，强化学习一直备受关注，主要集中在人类反馈方面。但事实证明，您也可以使用计算反馈作为奖励模型。在这项工作中，他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是，他们能够显着提...