漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-15 talkingdev

[论文推荐]InteractVLM:基于2D基础模型的3D交互推理新突破

InteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...

Read More
2025-04-09 talkingdev

LaunchDarkly推出Guarded Releases功能,为每次发布提供风险防范

LaunchDarkly近日推出了Guarded Releases功能,旨在帮助软件开发者在用户之前发现应用程序错误和性能问题。这项服务允许用户在每次发布时嵌入主动的风险缓解措施。用户可以设置并监控性能阈值,在关键的发布窗口期间...

Read More
2025-04-07 talkingdev

[开源]Object Counting:基于特征图与自注意力机制的全自动零样本物体计数方法

GitHub开源项目Object Counting提出了一种突破性的全自动零样本物体计数方法,该方法通过融合深度特征图与自注意力机制,在FSC147数据集上实现了当前最先进的计数精度。该技术的核心创新在于:1)利用预训练视觉模型...

Read More
2025-04-04 talkingdev

Hatchet:新一代后台任务运行平台

Hatchet平台以其极简易用的背景任务处理功能引起了业界关注。它能够将函数分配给一组工作器处理,且配置和基础设施需求极低。Hatchet具备内置支持,可以将复杂任务链入工作流中,实现任务的复杂联动。它还支持失败报...

Read More
2025-04-01 talkingdev

[开源]Video-R1:基于规则的强化学习方法实现高效视频推理

Video-R1项目提出了一种创新的基于规则的强化学习(RL)方法,专门用于视频推理任务。该方法采用了GRPO(Generalized Reinforcement Learning with Policy Optimization)的时间变体,并引入了新的数据集来支持训练...

Read More
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-26 talkingdev

开源Dereflection Any Image:基于扩散模型的图像反反射新技术

近日,Dereflection Any Image(DAI)项目推出了一种基于扩散模型的图像反反射新技术,该技术利用高质量数据集和渐进式训练方法,显著提升了图像反反射的效果。反反射技术一直是计算机视觉领域的重要研究方向,尤其...

Read More
2025-03-25 talkingdev

[论文推荐]TRG-Net:基于文本关系图的骨架动作分割技术

近日,一项名为TRG-Net的创新技术在动作分割领域取得了突破性进展。该技术通过利用文本衍生的关系图(Text-Derived Relational Graphs)来增强动作分割的精度,特别是在空间-时间建模和监督方面表现出色。动作分割是...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page