Meta近日正式推出V-JEPA 2视觉世界模型,该技术突破性实现了AI代理对物理环境的动态推理能力。作为Yann LeCun团队世界模型研究的最新成果,V-JEPA 2通过自监督学习架构,使AI系统能够基于视频输入预测物理交互结果。...
Read MoreHugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...
Read MoreInteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...
Read More近日,EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相,旨在评估多模态大语言模型(MLLMs)在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务,这对模型的感知、推理和执行能力提...
Read More