在视频理解领域,大多数模型通常逐帧处理视频数据,这使得处理时间相关的问题变得具有挑战性。STORM模型通过引入Mamba适配器,增加了时间注意力操作,从而显著提升了长视频的理解能力。与Qwen模型相比,STORM在处理...
Read More近日,Gemini团队宣布成功训练并发布了一款全新的文本Embedding模型。该模型在多项基准测试中表现优异,不仅性能卓越,还具备出色的运行速度。此外,其定价策略也相当合理,使其成为市场上极具竞争力的选择。这一模...
Read More近日,BodyGen公司宣布推出一种创新的拓扑感知自注意力机制和时序信用分配机制,旨在显著提升机器人形态与控制协同设计的效率。这一技术突破通过优化机器人形态的拓扑结构,结合自注意力机制,能够更精准地捕捉机器...
Read More近日,GitHub上发布了一款名为FlowDec的高质量音频压缩工具。FlowDec是一款全频带音频编解码器,采用条件流匹配(conditional flow matching)和非对抗性训练(non-adversarial training)技术,能够实现48 kHz高保...
Read More近日,ToLo推出了一种创新的两阶段、无需训练的布局到图像生成框架,专门针对高重叠布局设计。该框架通过两个独立的阶段实现图像生成:第一阶段利用预训练的模型生成初步图像,第二阶段则通过优化算法对图像进行精细...
Read MoreQwen团队近日发布了一款名为QwQ 32B的开源推理模型,该模型基于Apache 2.0许可证,性能与DeepSeek R1相当,甚至优于许多更大的蒸馏模型。团队通过结合基于结果的奖励机制、形式化验证和测试用例检查,使模型在数学和...
Read More近日,L-MAP技术在离线强化学习(Offline RL)领域取得了显著进展,特别是在处理随机、高维连续动作空间中的序列决策问题。L-MAP通过结合VQ-VAE模型,成功学习并优化了宏动作(macro-actions),从而显著提升了决策...
Read More近日,一项名为“无损加速超长序列生成”的技术框架在GitHub上开源,旨在显著提升超长序列生成的处理速度,同时保持目标模型的固有质量。该框架支持高达100K tokens的序列生成,适用于需要处理大规模数据的场景,如自...
Read More