SWE-bench的相关内容 - 漫话开发者

2026-07-12 talkingdev

论文推荐| Z.ai提出SAO：单次展开异步优化，稳定训练千步，超越GRPO并已部署于GLM-5.2

在大语言模型后训练中，强化学习正变得愈发关键，但面向长周期智能体任务时，传统同步、批次交替的RL流程效率低下。异步强化学习通过随到随更新的方式提升了效率，然而现有系统多偏重吞吐量，训练稳定性和任务有效性...

2026-07-12 talkingdev

OpenAI 近期对当前广泛使用的 AI 编程能力评估基准 SWE-Bench Pro 进行了一次系统性审计，结果发现约 30% 的任务存在严重瑕疵，令该基准的可靠性与准确性备受质疑。此次审计由 Anthropic 团队执行，结合了自动化筛查...

2026-06-01 talkingdev

MiniMax 最新发布的开源权重模型 M3 在编码和智能体（Agentic）任务上达到前沿水平。该模型不仅支持图像和视频输入，还可以直接操作桌面计算机。技术上，M3 引入了一种新的注意力架构，支持上下文缩放，并能够处理多...

2026-04-30 talkingdev

Mistral AI最新发布了Mistral Medium 3.5模型，这是一款拥有1280亿参数的密集模型（128B dense model），专为驱动远程Vibe代理而设计，能够在云端执行长时间、异步的编码任务，用户可直接从命令行界面（CLI）或Le Ch...

2026-04-21 talkingdev

中国人工智能公司月之暗面（Moonshot AI）近日正式推出其新一代大模型系列Kimi K2.6，并已在Kimi Chat对话平台及API接口上线。该系列模型的核心突破在于强化了长上下文编程能力与智能体（Agent）执行支持，旨在为开...

2026-02-04 talkingdev

近日，一项名为SWE-Universe的研究提出了一种革命性的可扩展框架，旨在从GitHub的拉取请求中自动构建真实世界的软件工程可验证环境。该研究成功解决了自动化构建中长期存在的三大挑战：构建成功率低、验证机制薄弱以...

2025-11-07 talkingdev

中国人工智能实验室月之暗面（Moonshot AI）近日开源其革命性推理模型Kimi K2，在关键基准测试中展现出与国际顶尖模型的竞争实力。该模型在衡量综合认知能力的‘人类终极考试’（Humanity's Last Exam）中取得44.9%的...

2025-09-30 talkingdev

人工智能公司Anthropic正式推出Claude Sonnet 4.5模型，该模型在SWE-bench Verified基准测试中以77.2%的得分刷新世界纪录，成为当前全球最卓越的代码生成模型。此次升级在计算机操作、复杂推理和数学计算三大核心领...