AR的相关内容 - 漫话开发者

2025-03-25 talkingdev

[开源] Baichuan Omni 1.5：开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意（any-to-any）的设计风格，属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

2025-03-25 talkingdev

近日，一项名为SISO的突破性技术引发了业界广泛关注。该技术通过在图像生成和编辑过程中迭代优化相似性损失，实现了无需训练的个性化处理。这一创新意味着用户可以在不进行复杂模型训练的情况下，快速生成或编辑出符...

2025-03-25 talkingdev

随着深度学习技术的迅猛发展，其在医学影像处理领域的应用也日益广泛。最近，一个名为“Awesome MRI Reconstruction”的开源项目在GitHub上引起了广泛关注。该项目精心收集了大量关于深度学习在磁共振成像（MRI）重建...

2025-03-25 talkingdev

LLaVA-MORE 是一项关于多模态大语言模型（Multimodal Large Language Models, MLLMs）的系统性研究，旨在评估不同语言模型和视觉骨干网络在 MLLMs 中的表现，并提供一个可复现的框架来比较这些架构。通过该研究，研...

2025-03-25 talkingdev

近日，一篇发表在arXiv上的论文介绍了一种名为UniHDSA的统一关系预测方法，用于分层文档结构分析。该方法的核心创新在于通过一个单一模块同时处理多项任务，显著提高了文档结构分析的效率和准确性。UniHDSA技术的应...

2025-03-25 talkingdev

近日，一项名为TRG-Net的创新技术在动作分割领域取得了突破性进展。该技术通过利用文本衍生的关系图（Text-Derived Relational Graphs）来增强动作分割的精度，特别是在空间-时间建模和监督方面表现出色。动作分割是...

2025-03-25 talkingdev

Reve Image 1.0 是一款AI图像生成器，其定价策略和生成质量在市场上具有显著竞争力，甚至可能超越Midjourney和Ideogram等行业巨头。该工具以5美元提供500次生成额度，每张图像的成本仅为1美分，使得高质量图像生成变...

2025-03-25 talkingdev

Roblox近日开源了其最新的AI模型Cube 3D，该模型能够通过文本提示生成3D对象，旨在提升创作效率。Cube 3D采用了先进的标记化技术，并通过授权和公开可用的数据集，以及Roblox自身的体验数据进行训练。未来，Cube 3D...