漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-26 talkingdev

[开源] Qwen 2.5 32B 视觉语言模型发布,性能卓越且支持消费级硬件

近日,Qwen团队发布了一款名为Qwen 2.5 32B的视觉语言模型,该模型不仅具备强大的多模态处理能力,而且完全开源,能够在消费级硬件上高效运行。这一重大突破为AI领域的研究者和开发者提供了更加灵活和便捷的工具,尤...

Read More
2025-03-25 talkingdev

[论文推荐] LLaVA-MORE:多模态大语言模型的系统性评估框架

LLaVA-MORE 是一项关于多模态大语言模型(Multimodal Large Language Models, MLLMs)的系统性研究,旨在评估不同语言模型和视觉骨干网络在 MLLMs 中的表现,并提供一个可复现的框架来比较这些架构。通过该研究,研...

Read More
2025-03-24 talkingdev

[开源] 探索潜在多跳推理:大语言模型的多知识连接能力研究

近期,一项关于大语言模型(LLMs)的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现,这种潜在的推理过程确实存在,尤其在初始步骤中表现明显。然而,模型对连接知识的...

Read More
2025-03-20 talkingdev

[论文推荐] KoLMogorov 测试:通过代码生成实现压缩

Meta 最近引入了一种新的基准测试,用于评估语言模型的推理能力和知识水平。该测试向语言模型提供一个长序列数据,并要求模型输出能够重新生成该序列并停止运行的最短程序。这一过程被称为 Kolmogorov 压缩,且在多...

Read More
2025-03-20 talkingdev

微软推出KBLAM:为LLM引入即插即用的外部知识

微软研究院最近推出了一项名为KBLAM的创新技术,旨在为大型语言模型(LLMs)引入即插即用的外部知识。这项技术的主要亮点在于,它无需重新训练模型即可实现知识的无缝集成,从而支持在线和实时学习。KBLAM的核心优势...

Read More
2025-03-20 talkingdev

Zoom的AI进化:从基础会议工具到基于LLMs和SLMs的智能生产力平台

Zoom正通过开发一套自主AI基础设施,将其业务从视频会议扩展到行动导向的工作流程。这一创新包括AI Companion 2.0,它提供了任务管理和文档创建等功能,以及通过新的AI Studio定制的AI代理。Zoom采用联合方法,将公...

Read More
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page