具身智能的相关内容 - 漫话开发者

2025-06-12 talkingdev

Meta发布V-JEPA 2视觉世界模型，提升AI物理推理能力

Meta近日正式推出V-JEPA 2视觉世界模型，该技术突破性实现了AI代理对物理环境的动态推理能力。作为Yann LeCun团队世界模型研究的最新成果，V-JEPA 2通过自监督学习架构，使AI系统能够基于视频输入预测物理交互结果。...

2025-06-10 talkingdev

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型（Vision-Language Models, VLMs）在图形用户界面（GUI）智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架，填补了当前多模态模...

2025-04-15 talkingdev

InteractVLM作为新一代视觉语言模型(VLM)，实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型，结合多视角渲染技术，将2D推理能力提升至3D空间，能够精准分析人类与物体在三维环境中的接触关系。...

2025-02-26 talkingdev

近日，EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相，旨在评估多模态大语言模型（MLLMs）在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务，这对模型的感知、推理和执行能力提...