Multi的相关内容 - 漫话开发者

2025-03-25 talkingdev

[开源] Baichuan Omni 1.5：开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意（any-to-any）的设计风格，属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

2025-03-25 talkingdev

LLaVA-MORE 是一项关于多模态大语言模型（Multimodal Large Language Models, MLLMs）的系统性研究，旨在评估不同语言模型和视觉骨干网络在 MLLMs 中的表现，并提供一个可复现的框架来比较这些架构。通过该研究，研...

2025-03-24 talkingdev

近期，一项关于大语言模型（LLMs）的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现，这种潜在的推理过程确实存在，尤其在初始步骤中表现明显。然而，模型对连接知识的...

2025-03-20 talkingdev

近日，Stability推出了一项名为Stable Virtual Camera的创新技术，该技术基于一种多视角扩散模型，能够从单张或多张2D图像中生成沉浸式3D视频。这一技术允许用户自定义或预设相机轨迹，从而实现对3D场景的灵活控制。...

2025-03-12 talkingdev

近日，GitHub上发布了一项名为Perception Efficient Reconstruction的创新技术，该方法将文本查询能力与从图像中进行3D重建的技术相结合。该系统采用前馈模型（feed forward model），能够实现快速的三维重建。这一...

2025-03-12 talkingdev

近日，一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态，并采用基于角色的提示机制，显著提升了视频生成的一致性和准确性。MovieAgent利用Stable Diffusion视频模型生成并拼接帧，从而实现...

2025-03-06 talkingdev

近日，Kiss3DGen技术引起了广泛关注，该技术通过重新利用2D扩散模型，实现了高效的3D对象生成。Kiss3DGen利用多视角图像和法线贴图，能够生成高质量的3D网格和纹理。这一创新不仅简化了3D生成流程，还显著提升了生成...

2025-03-05 talkingdev

近日，一项针对多目标强化学习（Multi-Objective Reinforcement Learning, MORL）的创新研究取得了重要进展。该研究提出了一种新型奖励降维方法，显著提升了学习效率，突破了传统方法的局限性。传统的多目标强化学习...