多模态融合的相关内容 - 漫话开发者

2025-06-13 talkingdev

字节跳动Seedance 1.0登顶视频生成基准测试，超越谷歌Veo 3与OpenAI Sora

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

2025-05-22 talkingdev

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-07 talkingdev

最新研究论文系统探讨了大型语言模型（LLMs）在时间序列分析领域的跨模态适配技术。该研究聚焦数据对齐、多模态融合及下游任务表现三大核心环节，揭示了LLMs在金融预测、工业设备监测、医疗诊断等多领域的创新应用潜...

2025-04-22 talkingdev

近日，科技社区热议的π0.5（Pi-0.5）模型在开放世界泛化能力上取得重要进展。该视觉语言模型（VLA）通过创新架构设计，在未见过的新场景中展现出超越同类模型的零样本学习能力。技术博客透露，其核心突破在于动态多...

2025-03-25 talkingdev

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意（any-to-any）的设计风格，属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

2025-03-12 talkingdev

近日，一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态，利用基于角色的提示（persona-based prompting）来确保生成内容的一致性和准确性。MovieAgent进一步使用Stable Diffusion视频模型...

2025-02-26 talkingdev

近日，R1-OneVision作为一种多功能的大型多模态模型，正式在GitHub上发布。该模型通过整合视觉与文本数据，在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

2023-10-13 talkingdev

研究人员开发了一种新技术，将声音信息和语言数据结合起来，纠正自动语音识别系统中的错误。该技术基于交叉模态融合，使用视觉和语言信息来提供更准确的识别结果。此外，该技术还可以提供更好的语音合成能力。研究人...