漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-03 talkingdev

mm-instruct:利用多样化的视觉指导数据提升多模态模型的性能

MM-Instruct是一个大规模数据集,旨在提升大型多模态模型(LMMs)的指令跟随能力。这个数据集集合了大量的指令和相关的视觉内容,帮助模型更好地理解和执行人类的指令。通过这种方式,MM-Instruct能够为多模态模型提...

Read More
2024-06-04 talkingdev

LLMs在医疗领域的新突破

InvariantSelectPR是一种旨在提高大型多模态模型(LMMs)在特定领域如医疗保健中的适应性的方法。这种方法通过优化模型的选择和调整,使其能够更好地处理不同领域的数据,提高预测的准确性和可靠性。在医疗领域,数...

Read More
2024-03-26 talkingdev

PSALM:面向图像分割任务的多模态模型扩展

PSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...

Read More
2024-03-22 talkingdev

PuzzleVQA数据集:挑战GPT-4V等大型多模态模型的抽象推理能力

PuzzleVQA是一个专为测试大型多模态模型,如GPT-4V的抽象推理能力而设计的数据集。该数据集通过一系列复杂的视觉问题和答案对,评估模型在理解和推理方面的表现。这些问题往往需要模型进行深层次的逻辑思考和抽象概...

Read More
2023-12-08 talkingdev

BenchLLM开源,测试大型多模态模型的基准

这个项目介绍了BenchLMM,一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

Read More
2023-09-29 talkingdev

联合训练大型多模态模型:一种新的算法取得了突破

模型通常针对特定任务(例如,语言生成和图像生成)进行单独训练。然而,最近提出的一种名为联合自回归混合(JAM)的算法,通过巧妙地交叉注意力和温和的微调,成功地将不同的模型结合在一起。这种新颖的方法在多种...

Read More
2023-04-20 talkingdev

机器学习:使用视觉指令调整大型语言模型

本文介绍了一篇新的论文,提出使用机器生成的指令跟踪数据来调整大型语言模型(LLMs)以执行多模态任务。该论文开发了LLaVA,这是一个大型多模态模型,它结合了视觉编码器和仅限于语言的GPT-4。经过调整后,LLaVA展...

Read More