漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

通过强化学习训练扩散模型

talkingdev • 2023-05-23

1398791 views

在最近的工作中,强化学习一直备受关注,主要集中在人类反馈方面。但事实证明,您也可以使用计算反馈作为奖励模型。在这项工作中,他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是,他们能够显着提高基础扩散模型的性能。 ### 核心要点: - 强化学习可以使用计算反馈作为奖励模型。 - 使用LLaVA视觉问答系统为多个不同任务给出bert分数。 - 可以显着提高基础扩散模型的性能。