本项目介绍了对Google的Gemini进行深入分析的研究,Gemini是一种多模态大型语言模型,评估其在各种任务中的常识推理性能。该研究与其他模型进行了比较,揭示了其在跨模态知识整合方面的竞争能力。
Read More苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其...
Read MoreM3DBench是一个全新的广泛数据集,旨在改变AI的3D理解,填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对,集成了文本、图像和3D对象,为AI执行更广泛的现实3D任务铺平了道路。
Read MoreNous Research (Hugging Face Hub)发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型,该模型拥有30亿参数,可以在手机等边缘设备上运行。
Read More一种名为OneLLM的新型AI模型正在掀起波澜,它使用一种独特的方法将所有这些模态与语言对齐,理解包括图像、音频甚至脑活动在内的八种不同类型的数据。OneLLM的这种多模态理解方法可能会推动AI在语义理解方面的进一步...
Read MoreGoogle的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...
Read More