漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

机器学习:使用视觉指令调整大型语言模型

talkingdev • 2023-04-20

1494210 views

本文介绍了一篇新的论文,提出使用机器生成的指令跟踪数据来调整大型语言模型(LLMs)以执行多模态任务。该论文开发了LLaVA,这是一个大型多模态模型,它结合了视觉编码器和仅限于语言的GPT-4。经过调整后,LLaVA展现出了令人印象深刻的多模态对话能力,并在与GPT-4协同微调的情况下,在科学问答方面实现了92.53%的最新精度,创造了新的最高纪录。 该论文的核心内容有以下三点: - 使用机器生成的指令跟踪数据来调整大型语言模型,以执行多模态任务 - LLaVA模型结合了视觉编码器和仅限于语言的GPT-4,表现出了令人印象深刻的多模态对话能力 - 经过与GPT-4的协同微调,LLaVA在科学问答方面实现了92.53%的最新精度,创造了新的最高纪录。