漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-28 talkingdev

[论文推荐]Mixture-of-Mamba:多模态预训练新突破,计算成本显著降低

近期,一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs),实现了高效的多模态预训练。与传统Transformer模型相比,Mixture-of-Mamba在文本、图像...

Read More
2025-03-27 talkingdev

Qwen发布全新多模态模型Qwen Omni 7B,支持文本与语音响应

近日,Qwen发布了一款名为Qwen Omni 7B的多模态模型,该模型能够原生理解多种不同的模态数据,并以文本或语音的形式进行响应。这一技术的推出标志着人工智能在多模态处理领域迈出了重要一步。Qwen Omni 7B不仅能够处...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-17 talkingdev

Luma推出多模态模型预训练新方法:Inductive Moment Matching

Luma首席科学家宋嘉明,作为最早为扩散模型开发加速算法的先驱,近日发布了新的多模态预训练方法——Inductive Moment Matching(IMM)。这一新方法不仅超越了传统扩散模型在样本质量上的表现,还实现了10倍以上的效率...

Read More
2025-02-26 talkingdev

R1-OneVision:多模态推理模型在复杂视觉任务中的突破

近日,R1-OneVision作为一种多功能的大型多模态模型,正式在GitHub上发布。该模型通过整合视觉与文本数据,在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

Read More
2025-02-24 talkingdev

谷歌发布SigLIP2:图像与文本编码模型的重大升级

SigLIP2作为SigLIP的升级版本,在多个方面实现了显著改进。SigLIP原本是一款广受欢迎的联合图像与文本编码模型,而SigLIP2在零样本分类性能上取得了重大突破,这一性能曾是CLIP模型的标志性成果。此次升级不仅提升了...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page