大型语言模型的部署成本一直是其广泛应用的主要障碍之一。一篇来自AlphaXiv的最新研究提出了一种创新解决方案:通过强化学习微调递归语言模型(RLMs)。该方法的核心在于训练一个共享的策略,同时驱动父模型和子模型...
Read MoreOpenAI近期举办的一场名为“参数高尔夫”的竞赛吸引了超过1000名参与者和2000份提交作品。该竞赛的核心挑战是在严格约束条件下,尽可能减少数据集的损失。参赛者运用了多种先进技术,包括精细调参、量化以及新颖的建模...
Read More据TechCrunch报道,谷歌正与SpaceX进行初步谈判,计划将AI数据中心部署到太空轨道上。这一构想旨在突破地球物理限制,为日益膨胀的AI算力需求寻找新的基础设施解决方案。太空数据中心可以利用太阳能发电、散热效率更...
Read More在AI视频生成领域,生成连贯的长视频一直是一个技术难题。近期,一个名为A²RD的新型框架被提出,旨在解决这一挑战。A²RD代表“Agentic Autoregressive Diffusion”,即基于智能体的自回归扩散模型。该框架引入了一种独...
Read More在AI大模型推理成本与日俱增的背景下,测试时扩展(Test-Time Scaling)正成为提升模型性能的前沿方向之一。近日,来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架,旨在通过编码Agent在回放环境中迭...
Read MoreThinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...
Read MoreOpenAI近日发布了一份工程指南,详细介绍了如何使用其最新优化的模型gpt-realtime-translate构建实时语音翻译系统。该模型专为同声传译场景设计,与传统的轮次语音交互不同,它能实现对语音流进行实时、连续的翻译处...
Read More一项针对大语言模型(LLM)记忆更新机制的研究揭示了令人意外的结果:当AI代理不断通过LLM更新其长期记忆时,不仅未能提升性能,反而可能导致表现下降,甚至不如完全没有记忆功能的模型。研究者指出,问题核心在于“...
Read More