漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-12 talkingdev

Meta发布V-JEPA 2视觉世界模型,提升AI物理推理能力

Meta近日正式推出V-JEPA 2视觉世界模型,该技术突破性实现了AI代理对物理环境的动态推理能力。作为Yann LeCun团队世界模型研究的最新成果,V-JEPA 2通过自监督学习架构,使AI系统能够基于视频输入预测物理交互结果。...

Read More
2025-06-10 talkingdev

Hugging Face推出ScreenSuite:标准化评估GUI智能体的新基准套件

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...

Read More
2025-04-15 talkingdev

[论文推荐]InteractVLM:基于2D基础模型的3D交互推理新突破

InteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...

Read More
2025-02-26 talkingdev

EmbodiedEval:全新交互式基准测试助力MLLM在具身任务中的能力评估

近日,EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相,旨在评估多模态大语言模型(MLLMs)在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务,这对模型的感知、推理和执行能力提...

Read More