基准测试的相关内容 - 漫话开发者

2026-06-13 talkingdev

Moonshot AI发布Kimi K2.7-Code：推理令牌用量较K2.6降低30%，采用修改版MIT许可证开源

国内AI初创公司Moonshot AI于本周正式发布了其K2编程模型家族的最新开源版本——Kimi K2.7-Code。据该团队宣称，与上一代K2.6相比，新模型在保持高性能的同时，实现了推理过程中令牌（token）使用量降低30%的显著突破...

2026-06-12 talkingdev

小米近日在AI编程助手领域取得了突破性进展，正式开源了其终端原生AI编码工具——MiMo Code V0.1.0。这款工具在关键AI编码基准测试中表现抢眼，特别是在涉及超长周期、多步骤的复杂任务（超过200步）上，性能超越了知...

2026-06-09 talkingdev

在当前AI编程模型的评估中，大多数基准测试都聚焦于代码能否正确运行，即是否能够通过编译、执行并输出预期结果。然而，在真正的软件开发生产环境中，“正确”仅仅是最低标准。最新发布的FrontierCode基准测试，首次将...

2026-06-05 talkingdev

随着本地大语言模型（LLM）的普及，Ollama作为一款简洁的本地模型运行工具，受到开发者和研究者的广泛关注。然而，面对众多不同参数规模、训练策略的Ollama模型，如何快速、客观地选出最适合特定任务的模型，成为实...

2026-06-02 talkingdev

Perplexity AI 在其最新研究论文中提出了一种名为“搜索即代码”（Search as Code，简称 SaC）的全新搜索架构范式。该方案通过提供一个软件开发工具包（SDK），赋予大语言模型对搜索流程的直接编程控制权。与传统将搜...

2026-06-01 talkingdev

MiniMax 最新发布的开源权重模型 M3 在编码和智能体（Agentic）任务上达到前沿水平。该模型不仅支持图像和视频输入，还可以直接操作桌面计算机。技术上，M3 引入了一种新的注意力架构，支持上下文缩放，并能够处理多...

2026-05-29 talkingdev

在人工智能领域，开源模型的性能与顶尖闭源模型之间的差距一直是业界关注的焦点。最近一篇来自LessWrong平台的深入分析指出，尽管开源模型在整体能力上仍不及GPT-4、Claude等最先进的闭源模型，但实际差距并没有想象...

2026-05-22 talkingdev

一位资深技术博主在运行其个人博客长达十年后，终于将系统从长期服务版本Ubuntu 16.04迁移到了FreeBSD。这次迁移并非简单的版本升级，而是一次深度的架构切换。博主详细记录了在Hetzner VPS上部署FreeBSD的完整流程...