多模态LLM的相关内容 - 漫话开发者

2023-11-01 talkingdev

COMM开源，改进多模态LLMs性能

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

2023-08-08 talkingdev

MM-Vet是一种新的工具，用于测试大型语言模型(LLMs)处理涉及图像和文字的任务的能力，例如从照片中解决数学问题或解释图片中的笑话。这种工具的出现，为我们提供了一个全新的角度去评估和理解LLMs在图像和文字处理方...