通过强化学习训练扩散模型

talkingdev • 2023-05-23

1398791 views

在最近的工作中，强化学习一直备受关注，主要集中在人类反馈方面。但事实证明，您也可以使用计算反馈作为奖励模型。在这项工作中，他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是，他们能够显着提高基础扩散模型的性能。 ### 核心要点: - 强化学习可以使用计算反馈作为奖励模型。 - 使用LLaVA视觉问答系统为多个不同任务给出bert分数。 - 可以显着提高基础扩散模型的性能。

通过强化学习训练扩散模型

Related posts