在生产环境中部署基于大语言模型(LLM)的智能体(Agent)时,如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员(Judge)在处理涉及多步推理、状态验证和动态调整的Agent轨迹时,常出现事实...
Read MoreCate是一款创新的空间桌面IDE,其核心特色在于提供了一个无限缩放的画布,允许开发者在一个广阔的空间工作区内灵活排布代码编辑器、终端、浏览器面板等工具。这种设计打破了传统IDE的固定窗口布局,让开发者能够像整...
Read MoreHugging Face 团队近日发布了一项名为“Delta Weight Sync”的创新技术,旨在解决大规模强化学习(RL)训练中的通信瓶颈问题。在训练拥有万亿参数量的模型时,传统的权重同步方式需要在训练器(Trainer)和推理引擎(I...
Read More人工智能软件工程师Devin的开发商Cognition近日宣布完成超过10亿美元的新一轮融资,公司估值达到260亿美元。本轮融资由Lux Capital、General Catalyst和8VC等知名投资机构领投。Devin作为一款AI驱动的软件工程师,已...
Read More在AI编程代理的辅助下,开发者zfhuang99基于Rust语言成功构建了一个全新的多Paxos共识引擎,代码规模超过13万行,并以此对经典的Replicated State Library进行了现代化改造。这一项目最令人瞩目的成果在于其性能的巨...
Read More谷歌云近日正式推出Agent Executor,这是一个面向AI代理(Agent)的分布式运行时开源标准,旨在解决长时间运行的代理工作流在可靠性、效率和扩展性上的核心挑战。Agent Executor通过引入持久化执行机制,确保代理任...
Read More在Google I/O大会上,Google正式发布了其最新一代大语言模型系列——Gemini 3.5。这一版本是Gemini系列的重大升级,首款推出的模型为超快速的3.5 Flash版本,专为在Google搜索等应用中直接处理复杂任务而优化。在多项...
Read More艾伦人工智能研究所(Ai2)最新发布的OlmoEarth v1.1模型家族,在遥感智能分析领域实现了显著的成本突破。该系列模型通过创新的序列长度优化技术,将处理遥感数据的计算成本最高降低至原来的三分之一(即3倍效率提升...
Read More