LLM的相关内容 - 漫话开发者

2026-05-29 talkingdev

Agent Judge：为生产级智能体打造的长上下文评测新范式

在生产环境中部署基于大语言模型（LLM）的智能体（Agent）时，如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员（Judge）在处理涉及多步推理、状态验证和动态调整的Agent轨迹时，常出现事实...

2026-05-28 talkingdev

近日，AI领域两大领军企业Anthropic与OpenAI被曝已成功探索出产品与市场的高度契合模式。据业内人士透露，Anthropic很可能将迎来首个盈利季度，而越来越多的企业客户正在为日益增长的LLM使用费用感到惊讶。这种商业...

2026-05-28 talkingdev

在AI和文档处理领域，PDF解析一直是一个棘手但关键的环节。近日，LlamaIndex团队推出的LiteParse v2.0版本引发了开发者社区的广泛关注。该项目完全采用Rust语言从零重写，彻底摆脱了对大语言模型（LLM）或云端服务的...

2026-05-12 talkingdev

在AI大模型推理成本与日俱增的背景下，测试时扩展（Test-Time Scaling）正成为提升模型性能的前沿方向之一。近日，来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架，旨在通过编码Agent在回放环境中迭...

2026-05-11 talkingdev

一项针对大语言模型（LLM）记忆更新机制的研究揭示了令人意外的结果：当AI代理不断通过LLM更新其长期记忆时，不仅未能提升性能，反而可能导致表现下降，甚至不如完全没有记忆功能的模型。研究者指出，问题核心在于“...

2026-05-08 talkingdev

谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升，成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”（Speculative Decoding）技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...

2026-05-07 talkingdev

近日，一款名为Hallucinopedia（注：根据项目网址halupedia.com推测，该名称可能为“Hallucination Encyclopedia”即“幻觉百科全书”的合成词，但网站实际名称为Halupedia，应尊重原项目名称）的趣味知识项目在Hacker N...

2026-05-06 talkingdev

谷歌最新研究为人工智能领域的“幻觉”问题提供了一个颠覆性的理论框架。该论文指出，大语言模型（LLM）产生幻觉的核心并非传统认知中的“知识缺陷”或信息错误，而是模型在输出时未能有效表达其内在的不确定性。研究提...