大型视觉语言模型的相关内容 - 漫话开发者

2024-07-10 talkingdev

Video-STaR:自我训练助力视觉语言模型的提升

Video Self-Training with augmented Reasoning (Video-STaR)是一种新的方法，用于改进大型视觉语言模型（LVLMs）。通过自我训练和增强推理，Video-STaR能够提高模型的学习能力和预测准确性。这种方法的主要优势在于...

2024-05-22 talkingdev

在大型视觉语言模型（LVLMs）中，输出结果往往更倾向于语言模型的先验知识，而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术，有效减少了这种偏差。这些技术使得模型在处理各种任务时，能够生成更加准...

2024-03-21 talkingdev

Chain-of-Spot（CoS）技术近日提出了一种交互式推理方法，该方法大幅提升了大型视觉语言模型（LVLMs）处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域，使得LVLMs能够在不损失图像分辨率的前...

2024-03-13 talkingdev

该项目提出了一种改善大型视觉语言模型（例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA）效率的方法，解决了“低效的注意力”问题。使用FastV这种新方法，通过修剪视觉令牌和学习自适应注意力模式来优化这些模型，从而显著...

2024-02-07 talkingdev

本篇论文揭示了大型视觉语言模型（LVLMs）为什么有时会错误地描述图像的原因，这种现象被称为多模态幻觉。语义转移偏差，特别是在段落中断处，是一个关键因素。研究人员发现，模型可能会出现误导性的预测，这些预测...