漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-10 talkingdev

STORM模型通过Mamba适配器提升长视频理解能力

在视频理解领域,大多数模型通常逐帧处理视频数据,这使得处理时间相关的问题变得具有挑战性。STORM模型通过引入Mamba适配器,增加了时间注意力操作,从而显著提升了长视频的理解能力。与Qwen模型相比,STORM在处理...

Read More
2024-02-14 talkingdev

苹果发布多模态LLM指导下的图像编辑代码

苹果发布了一款新的代码,使用多模态语言模型来改进人类提供的自然语言图像编辑。这个新的代码的核心思想是使用大型语言模型来指导用户对图像进行编辑,从而提高编辑的质量和效率。该代码的具体实现是将图像与自然语...

Read More
2024-02-08 talkingdev

论文:新工具解决多模态LLM中的幻觉问题

针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...

Read More
2024-01-11 talkingdev

SpeechAgents-多模态LLMs实现人类沟通模拟

SpeechAgents是一个多模态人工智能系统,能够以惊人的真实度模拟人类的交流。这个系统由多模态LLM支持,可以处理多达25个代理人。它可以通过模仿人类对话,包括连贯的内容、真实的节奏和表达丰富的情感,来创造戏剧...

Read More
2023-12-26 talkingdev

苹果公司新开源机器学习模型Ferret,可实现图像中任意粒度的元素识别和查询

苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-08-08 talkingdev

MM-Vet:多模态LLMs测试工具

MM-Vet是一种新的工具,用于测试大型语言模型(LLMs)处理涉及图像和文字的任务的能力,例如从照片中解决数学问题或解释图片中的笑话。这种工具的出现,为我们提供了一个全新的角度去评估和理解LLMs在图像和文字处理方...

Read More