UniOcc是一个专为自动驾驶场景设计的统一框架,专注于交通流预测和运动轨迹预报。该框架的创新性在于支持多数据集联合训练,并能进行真实环境与合成场景的跨域评估,为自动驾驶系统的决策规划提供更可靠的预测能力。...
Read More开源项目Orpheus近期引发开发者社区关注,该项目通过C++实现了一个高效易用的文本转语音(TTS)系统。与Llama.cpp类似,其最大技术亮点在于完全脱离GPU依赖,仅需简单安装即可在普通计算设备上运行,显著降低了语音合...
Read MoreGitHub开源项目SAMWISE实现了计算机视觉领域的重大突破,通过扩展Segment Anything Model(SAM)的核心能力,使其具备开放词汇分割(open-vocabulary segmentation)和长视频精确语义追踪功能。该技术突破性地解决了...
Read MoreVideo-R1项目提出了一种创新的基于规则的强化学习(RL)方法,专门用于视频推理任务。该方法采用了GRPO(Generalized Reinforcement Learning with Policy Optimization)的时间变体,并引入了新的数据集来支持训练...
Read MoreGitHub最新开源项目Optimal Stepsize for Diffusion Sampling (OSS)通过动态规划算法优化了扩散模型的采样步长调度方案。这项突破性技术能在保持生成质量近乎无损的情况下,将采样速度提升10倍。该研究解决了扩散模...
Read More近日,GitHub上出现了一个名为'awesome-multimodal-adaptation'的开源项目,该项目系统性地整理了多模态自适应领域的最新研究进展。该项目不仅涵盖了传统的领域自适应方法,还包括测试时自适应等新兴技术方向。多模...
Read More近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...
Read MoreVeloren是一款开源的体素(voxel)风格动作冒险角色扮演游戏(RPG),其灵感来源于经典游戏如《塞尔达传说》和《Cube World》。该游戏采用Rust语言开发,支持多人在线协作,玩家可以在一个广阔的开放世界中探索、战...
Read More