多模态的相关内容 - 漫话开发者

2025-06-13 talkingdev

ReVisiT-提升视觉语言模型的视觉定位能力

近期在GitHub上开源的ReVisiT项目，通过创新性地利用内部视觉标记（vision tokens）引导生成过程，显著提升了大型视觉语言模型（LVLM）的视觉定位能力。这一技术突破解决了当前多模态模型在生成文本时与视觉内容对齐...

2025-06-13 talkingdev

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

2025-06-12 talkingdev

OpenAI首席执行官Sam Altman近期发表题为《温和奇点》的专题文章，系统阐述了人类即将构建数字超级智能（Digital Superintelligence）的技术前景与社会影响。该文通过逐段解构发现，Altman试图传递一种审慎乐观的技...

2025-06-11 talkingdev

强化学习预训练（Reinforcement Pre-Training, RPT）作为大语言模型（LLM）与强化学习（RL）协同进化的前沿技术，提出了一种革命性的规模化训练范式。该技术通过创新性地利用海量文本数据进行通用强化学习预训练，在...

2025-06-11 talkingdev

LLaVA-STF项目通过创新的相邻令牌合并技术和多区块令牌融合模块，成功将视觉令牌序列压缩75%，显著提升了多模态推理效率。该技术突破性地解决了视觉语言模型中长序列处理带来的计算资源消耗问题，通过动态合并语义相...

2025-06-10 talkingdev

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型（Vision-Language Models, VLMs）在图形用户界面（GUI）智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架，填补了当前多模态模...

2025-05-30 talkingdev

Meta研究团队最新提出的零样本嫁接（zero-shot grafting）方法，通过从大型语言模型（LLM）的浅层中提取小型代理模型来训练视觉编码器，实现了视觉语言模型（VLM）训练成本降低约45%的突破。该技术不仅显著降低了计...

2025-05-28 talkingdev

DeepSeek团队在Hugging Face平台发布了最新的大语言模型DeepSeek-R1-0528，引发了技术社区的广泛关注。该模型在Hacker News上获得了330个点赞和148条评论，显示出业界对其技术价值的认可。作为开源大模型领域的重要...