漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-21 talkingdev

多模态Agent攻击-我们能信任视觉语言模型吗

视觉启用的语言模型(VLMs)如GPT-4o和Gemini,能够赋予自主代理人完成诸如进行购物或编辑代码等任务的能力。然而,这项工作也突出了这些代理人易受到恶意攻击的脆弱性。在现实世界中,我们必须对这些具有视觉理解能...

Read More
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-07 talkingdev

ml-rpm-bench: 视觉-语言模型在视觉推理方面的限制评估

像GPT-4V这样的视觉-语言模型在理解和与图像和文本交互方面正在快速发展。然而,最近的一项研究揭示了它们在视觉推理上的重大限制。研究人员使用复杂的视觉难题,如智商测试中的难题,来测试这些模型,并发现它们在...

Read More
2024-04-29 talkingdev

TrackGPT:基于指令技术的物体追踪进化

TrackGPT集成了大规模视觉-语言模型的能力,以变革物体追踪的方式。TrackGPT能够理解用于追踪的隐含指令,从而使过程更加流畅,提升性能。这一点在新的InsTrack基准和其他具有挑战性的数据集上表现出了令人印象深刻...

Read More
2024-03-20 talkingdev

新技术助力模型持续学习:MoE适配器框架

研究人员开发了一种新框架,通过为新任务增加特殊适配器的方式来扩展模型,帮助视觉-语言模型在不遗忘之前知识的情况下进行持续学习。这一技术突破为深度学习模型的持续学习能力提供了新的解决方案,能够有效避免传...

Read More
2023-10-04 talkingdev

视觉-语言模型DA-CLIP带来更优秀的图像修复效果

视觉-语言模型如CLIP在许多任务中表现出色,但在图像修复方面却面临一些挑战。因此,一项新的项目引入了DA-CLIP模型,该模型优化了CLIP的工作方式,使其更好地处理这些任务,从而带来更清晰的图像重建。DA-CLIP模型...

Read More
2023-10-03 talkingdev

通过对话教授图像识别模型:开创视觉-语言模型新方法

研究人员已经开发出一种新的方法,仅通过自然语言提示就可以提高视觉-语言模型的性能。这些模型能够理解文本和图像,而研究人员的新方法将使它们在处理视觉和语言信息时更加精确。通过与模型进行对话,研究人员可以...

Read More
2023-08-29 talkingdev

开源视觉-语言模型:识别面部表情

本研究公开了一个新的模型-DFER-CLIP,该模型对CLIP模型进行了改进,专门用于识别现实世界中变化的面部表情。CLIP模型是一个多模态的人工智能模型,它能够理解图像和文本之间的关系。这个新的DFER-CLIP模型,通过增...

Read More
  1. Next Page