多模态的相关内容 - 漫话开发者

2025-03-12 talkingdev

Hugging Face推出LeRobot平台扩展，发布最大开源多模态汽车AI数据集

Hugging Face与Yaak合作推出了L2D数据集，这是目前最大的开源多模态数据集，专为汽车人工智能（AI）领域设计。该数据集包含了从驾驶学校收集的专家和学生驾驶策略，并通过自然语言指令增强了空间智能模型的能力。这...

2025-03-11 talkingdev

近期，一项关于视觉语言模型（Vision Language Models）的研究引起了广泛关注。该研究通过结合简单可验证奖励机制与规模化强化学习（Scaled Reinforcement Learning），显著提升了模型的性能。研究团队在论文中详细...

2025-03-10 talkingdev

在视频理解领域，大多数模型通常逐帧处理视频数据，这使得处理时间相关的问题变得具有挑战性。STORM模型通过引入Mamba适配器，增加了时间注意力操作，从而显著提升了长视频的理解能力。与Qwen模型相比，STORM在处理...

2025-03-05 talkingdev

VARGPT是一种多模态大语言模型（MLLM），其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据，实现更高效的跨模态信息处理。通过自回归机制，VARGPT不仅...

2025-02-27 talkingdev

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal，这两款模型在硬件效率和多模态处理方面表现出色。其中，Phi-4-mini拥有38亿参数，专注于文本任务；而Phi-4-multimodal则具备56亿参数，能够处理...

2025-02-27 talkingdev

近日，Hugging Face Hub发布了一款名为Magma的新型基础模型，专为视觉agent任务设计，尤其在视频理解和UI导航方面表现出色。Magma模型以其易于调优的特性，为开发者提供了强大的工具，以应对复杂的多模态AI任务。该...

2025-02-26 talkingdev

近日，R1-OneVision作为一种多功能的大型多模态模型，正式在GitHub上发布。该模型通过整合视觉与文本数据，在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

2025-02-26 talkingdev

近日，EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相，旨在评估多模态大语言模型（MLLMs）在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务，这对模型的感知、推理和执行能力提...