漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-29 talkingdev

Agent Judge:为生产级智能体打造的长上下文评测新范式

在生产环境中部署基于大语言模型(LLM)的智能体(Agent)时,如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员(Judge)在处理涉及多步推理、状态验证和动态调整的Agent轨迹时,常出现事实...

Read More
2026-05-28 talkingdev

LiteParse v2.0:纯Rust重写,PDF解析速度飙升100倍,全平台离线运行

在AI和文档处理领域,PDF解析一直是一个棘手但关键的环节。近日,LlamaIndex团队推出的LiteParse v2.0版本引发了开发者社区的广泛关注。该项目完全采用Rust语言从零重写,彻底摆脱了对大语言模型(LLM)或云端服务的...

Read More
2026-05-23 talkingdev

Anthropic揭秘Project Glasswing:AI安全透明度的新突破

Anthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...

Read More
2026-05-20 talkingdev

Gemini 3.5发布:前沿智能与主动执行能力深度融合

在Google I/O大会上,Google正式发布了其最新一代大语言模型系列——Gemini 3.5。这一版本是Gemini系列的重大升级,首款推出的模型为超快速的3.5 Flash版本,专为在Google搜索等应用中直接处理复杂任务而优化。在多项...

Read More
2026-05-13 talkingdev

TLDR 招聘高级软件工程师(应用AI方向),年薪25-35万美元,支持全远程办公

TLDR 正为其应用人工智能(Applied AI)团队招募一名高级软件工程师。该团队的核心使命是将 TLDR 内部的所有流程变得对代码可读、可由任何人操作,并能组合成更复杂的工作流。这不仅是工程岗位,更是一个面向未来组...

Read More
2026-05-12 talkingdev

开源|AutoTTS:无需梯度更新,用编码Agent自动探索测试时扩展策略

在AI大模型推理成本与日俱增的背景下,测试时扩展(Test-Time Scaling)正成为提升模型性能的前沿方向之一。近日,来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架,旨在通过编码Agent在回放环境中迭...

Read More
2026-05-11 talkingdev

LLM持续更新记忆可能适得其反:研究发现无记忆模型表现更佳

一项针对大语言模型(LLM)记忆更新机制的研究揭示了令人意外的结果:当AI代理不断通过LLM更新其长期记忆时,不仅未能提升性能,反而可能导致表现下降,甚至不如完全没有记忆功能的模型。研究者指出,问题核心在于“...

Read More
2026-05-09 talkingdev

Anthropic新研究:教Claude理解“为什么”,AI推理能力再升级

人工智能公司Anthropic近日发布了一项名为“Teaching Claude Why”的研究,旨在提升其大语言模型Claude的推理和解释能力。传统AI模型往往只输出结果,而缺乏对“为什么做出这个决策”的透明解释。这项研究通过创新的训练...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page