在生产环境中部署基于大语言模型(LLM)的智能体(Agent)时,如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员(Judge)在处理涉及多步推理、状态验证和动态调整的Agent轨迹时,常出现事实...
Read More在AI和文档处理领域,PDF解析一直是一个棘手但关键的环节。近日,LlamaIndex团队推出的LiteParse v2.0版本引发了开发者社区的广泛关注。该项目完全采用Rust语言从零重写,彻底摆脱了对大语言模型(LLM)或云端服务的...
Read MoreAnthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...
Read More在Google I/O大会上,Google正式发布了其最新一代大语言模型系列——Gemini 3.5。这一版本是Gemini系列的重大升级,首款推出的模型为超快速的3.5 Flash版本,专为在Google搜索等应用中直接处理复杂任务而优化。在多项...
Read MoreTLDR 正为其应用人工智能(Applied AI)团队招募一名高级软件工程师。该团队的核心使命是将 TLDR 内部的所有流程变得对代码可读、可由任何人操作,并能组合成更复杂的工作流。这不仅是工程岗位,更是一个面向未来组...
Read More在AI大模型推理成本与日俱增的背景下,测试时扩展(Test-Time Scaling)正成为提升模型性能的前沿方向之一。近日,来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架,旨在通过编码Agent在回放环境中迭...
Read More一项针对大语言模型(LLM)记忆更新机制的研究揭示了令人意外的结果:当AI代理不断通过LLM更新其长期记忆时,不仅未能提升性能,反而可能导致表现下降,甚至不如完全没有记忆功能的模型。研究者指出,问题核心在于“...
Read More人工智能公司Anthropic近日发布了一项名为“Teaching Claude Why”的研究,旨在提升其大语言模型Claude的推理和解释能力。传统AI模型往往只输出结果,而缺乏对“为什么做出这个决策”的透明解释。这项研究通过创新的训练...
Read More