漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-03 talkingdev

Geometry Crafter:基于视频扩散模型的动态几何一致性估计技术

Geometry Crafter 是一种前沿的几何估计模型,它创新性地利用视频扩散作为先验信息,实现了时间维度上的一致性几何估计。该技术能够以约1.5帧/秒的速度完成完整点云估计,同时具备精确的相机姿态估计能力。这一突破...

Read More
2025-04-02 talkingdev

Open Hands推出32B代码模型,在代理编码任务中超越更大规模模型

Open Hands团队最新发布的32B参数代码模型(Open Hands LM-32B)在强化学习(RL)训练框架下,基于Qwen架构实现了突破性进展。该模型在代理编码任务(agentic coding tasks)中的表现已超越许多参数规模更大的竞品,...

Read More
2025-04-01 talkingdev

TriplaneTurbo实现文本到3D模型的突破性进展

研究人员通过渐进式渲染蒸馏技术(Progressive Rendering Distillation),成功开发出无需真实3D网格数据即可从文本提示生成高质量3D模型的新方法。这一名为TriplaneTurbo的创新系统仅需1.2秒即可完成生成,在速度和...

Read More
2025-03-31 talkingdev

[开源]Awesome Vision-to-Music Generation:视觉转音乐生成技术全景图

GitHub热门项目Awesome Vision-to-Music Generation系统性地整理了视觉到音乐(V2M)生成领域的前沿进展,涵盖学术研究突破与工业级应用方案。该项目持续更新的资源库整合了三大核心要素:1)基于深度学习的跨模态生...

Read More
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-31 talkingdev

[论文推荐]研究人员提出Panacea方法:防御有害微调攻击的新型自适应扰动技术

最新研究揭示了现有防御有害微调攻击(Harmful Fine-Tuning Attacks)方法的脆弱性,并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术,在保持模型微调性能的同时有效维护模型安全性。这一突破性进...

Read More
2025-03-28 talkingdev

[论文推荐]Mixture-of-Mamba:多模态预训练新突破,计算成本显著降低

近期,一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs),实现了高效的多模态预训练。与传统Transformer模型相比,Mixture-of-Mamba在文本、图像...

Read More
2025-03-27 talkingdev

[论文推荐] 模块化RAG框架:为图结构数据优化检索增强生成流程

近日,一项名为RGL的模块化框架在arXiv上发布,专为图结构数据的检索增强生成(RAG)流程提供了全新的解决方案。RGL通过其模块化设计和性能优化,显著提升了传统方法的效率,据称其速度提升了高达143倍。这一突破性...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page