多模态的相关内容 - 漫话开发者

2024-05-10 talkingdev

Image In Words数据集，图像与文字配对的新型标签方法

近日，一种新型的标签方法被研究者利用在了图片和文字的配对上，这种方法运用了两次的VLMs（视觉语言模型）扫描，产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细，能够帮助训练...

2024-05-07 talkingdev

Vibe-Eval是一个新推出的基准测试，专为测试多模态聊天模型而设计。它包含了269项视觉理解提示，其中包括100项特别具有挑战性的提示。这些视觉理解提示的设计，力求能够全面、深入地评估和测试多模态聊天模型的性能...

2024-04-28 talkingdev

多模态模型Bunny系列是一套强大的开放模型，尤其在MMMU基准测试中，其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术，充分展示了其强大的性能和应用广泛性。...

2024-04-16 talkingdev

Any2Point是GitHub上公开的一种新型方法，它能够高效地将视觉、语言和音频模型的能力转换到3D领域，同时保留空间几何信息。这一技术突破意味着开发者和研究人员能够利用现成的2D模型，通过Any2Point转换技术，快速拓...

2024-04-10 talkingdev

苹果公司开发了一款名为Ferret-UI的多模态大型语言模型（LLM），该模型具备理解移动设备用户界面的能力，有望让Siri更有效地理解并与屏幕上的元素进行互动。Ferret-UI的出现预示着Siri将能够更加直观地与iOS应用进行...

2024-04-03 talkingdev

近日，Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示，旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入，通过深度学习技术，实现了更加自...

2024-04-03 talkingdev

近期，GitHub上出现了一个名为Chug的新型数据集加载器项目。Chug专注于处理文本和图像任务，提供了强大且高效的多模态数据加载能力。该工具的出现，对于从事机器学习和人工智能领域的开发者来说，无疑是一个极大的助...

2024-03-27 talkingdev

在这篇访谈中，我们深入探讨了David Luan的职业历程，他曾是OpenAI的早期员工、Google大型语言模型项目的领导者之一，以及Google Brain的共同领导。Luan也是Adept的创始人，该公司是AI代理领域的佼佼者。他分享了在...