Qwen团队今日发布了其最新的开源权重模型Qwen3.6-27B,在AI社区引发广泛关注。该模型虽然仅有27B参数(稠密架构),却在智能体编码任务中实现了旗舰级性能。据Qwen团队宣称,Qwen3.6-27B在全部主流编码基准测试中均...
Read More随着人工智能向智能体(Agent)方向演进,传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答,而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力,尤其...
Read More阿里云旗下通义千问团队近日发布了其大型语言模型的最新预览版本——Qwen3.6-Max-Preview。该版本在多个核心能力上实现了显著提升,尤其是在世界知识的掌握与指令遵循的准确性方面表现突出。更为关键的是,模型在广泛...
Read More中国人工智能公司月之暗面(Moonshot AI)近日正式推出其新一代大模型系列Kimi K2.6,并已在Kimi Chat对话平台及API接口上线。该系列模型的核心突破在于强化了长上下文编程能力与智能体(Agent)执行支持,旨在为开...
Read More本周,Peter Steinberger的演讲揭示了OpenClaw项目呈现出的两种截然不同的叙事:一方面是鼓舞人心的公众愿景,另一方面则是工程师视角下对安全性与可扩展性挑战的严肃审视。与此同时,人工智能公司Anthropic正式推出...
Read More在人工智能领域,众多团队宣称其研发的智能体具备卓越的科学发现能力,但支撑这些声明的证据往往难以令人信服。为客观评估AI在科学探索中的真实水平,艾伦人工智能研究所(AI2)开发并开源了两项关键基准测试:Scien...
Read More加州大学伯克利分校的研究团队近日发表博客文章,详细阐述了他们在构建可信赖的AI智能体基准测试方面取得的突破性进展。文章指出,当前许多流行的AI智能体基准测试存在设计缺陷,容易被特定策略“破解”或产生误导性结...
Read More近日,GitHub上开源了一个名为Claw-Eval的评估框架,专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集,涵盖了139项多样化的真实世界任务。与以往许多依...
Read More