MILS开源-无需训练即可实现视觉与听觉感知
talkingdev • 2025-04-26
6106 views
Facebook研究团队近日在GitHub开源了MILS项目代码,其核心突破在于证明大型语言模型(LLMs)无需额外训练即可具备跨模态感知能力。该项目论文《LLMs can see and hear without any training》提出创新方法,通过重构预训练模型的嵌入空间,使纯文本训练的LLMs能直接处理视觉和听觉信号。这一发现挑战了传统多模态学习范式,可能大幅降低AI系统的开发成本。该成果在Hacker News引发热议,获得184点赞和62条技术讨论,显示出学术界对通用人工智能发展路径的重新思考。技术实现上,团队采用潜在空间对齐技术,将图像/音频特征映射到LLMs的文本嵌入空间,这种零样本跨模态迁移能力为构建更通用的AI系统提供了新思路。