漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-16 talkingdev

开源OpenThinkIMG:视觉语言模型推理与分布式部署工具库

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...

Read More
2025-05-13 talkingdev

Hugging Face发布Vision Language Models最新进展:更小架构实现更强多模态能力

Hugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明,通过架构优化,新一代模型在保持较小参数量的同时,显著提升了多模态理解能力。这些进步主要体现在三个方面:复杂场景的推理能力、动态...

Read More
2025-05-12 talkingdev

[开源]FastVLM:苹果发布高效视觉语言模型视觉编码方案,CVPR 2025论文实现

苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法,旨在优化视觉语言模型(VLM)中的视觉信息处...

Read More
2025-04-28 talkingdev

[论文推荐]华为提出轻量级神经应用控制新方法

华为研究人员在arXiv最新论文中提出了一种创新性的轻量级神经应用控制技术,该技术利用视觉语言模型(VLMs)实现Android设备的应用控制,且仅需极少的额外系统配置。这一突破性进展标志着多模态AI在移动终端交互领域的...

Read More
2025-04-23 talkingdev

Physical Intelligence团队推出Pi-0.5:新型清洁机器人在未知环境中表现优异

Physical Intelligence团队近期对其研发的家用清洁机器人Pi-0.5进行了测试,结果显示该机器人在全新的、未见过的环境中表现卓越。这一成果得益于团队采用的视觉语言模型(VLM)训练与动作标记化(action tokenizatio...

Read More
2025-04-22 talkingdev

π0.5:具备开放世界泛化能力的视觉语言模型新突破

近日,科技社区热议的π0.5(Pi-0.5)模型在开放世界泛化能力上取得重要进展。该视觉语言模型(VLA)通过创新架构设计,在未见过的新场景中展现出超越同类模型的零样本学习能力。技术博客透露,其核心突破在于动态多...

Read More
2025-04-21 talkingdev

[开源]REVERSE项目:VLM自检与修正幻觉的新训练推理框架(GitHub Repo)

由GitHub开源项目REVERSE提出的创新性解决方案,为视觉语言模型(VLM)的幻觉问题提供了突破性进展。该项目构建了一个完整的训练与推理管道,使VLM能够自主检测并修正其输出中的幻觉内容。该技术通过建立内部一致性验...

Read More
2025-04-18 talkingdev

Meta发布多项AI新成果:图像编码器、视觉语言模型及3D物体定位系统

Meta公司近日重磅推出四项人工智能领域的重要技术成果:1)高性能图像编码器,可优化视觉数据的特征提取效率;2)视觉语言模型(VLM),实现跨模态理解与生成;3)基于联合嵌入预测架构(JEPA)的3D物体定位模型,突...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page