基准测试的相关内容 - 漫话开发者

2026-07-12 talkingdev

OpenAI发布GPT-5.6：Sol、Terra、Luna三大模型亮相，以更低成本实现前沿智能

OpenAI正式推出GPT-5.6系列模型，包含Sol、Terra和Luna三个版本，其中Sol在编码、网络安全和科学研究等任务中展现出领先的智能与效率。该系列模型通过更少的令牌消耗实现更强的性能，单位算力成本显著下降。Sol在多...

2026-06-26 talkingdev

DeepReinforce近日开源了其新一代编程模型家族Ornith-1.0，这一系列模型的最大亮点在于具备自我编写强化学习（RL）训练框架的能力，标志着AI模型在自我优化和自动化研究方向上迈出重要一步。Ornith-1.0家族基于预训...

2026-06-26 talkingdev

近日，Liquid AI宣布推出其最新基础模型LFM2.5-230M，这是一款参数规模仅为2.3亿的非Transformer架构模型。与当前主流的Transformer模型不同，LFM2.5-230M基于状态空间模型与液态神经网络连续时间公式构建。尽管体积...

2026-06-25 talkingdev

QuestDB 在其最新的博文中深入探讨了数据库基准测试中常见的误导性问题。作为一款开源的高性能时序数据库，QuestDB 以超低延迟和高吞吐量著称。然而，其研究指出，基准测试结果极易受到测试方法的影响。例如，进程持...

2026-06-25 talkingdev

GLM-5.2的发布看似是一次增量更新，但其在基准测试和训练方法上的细微调整，却意外打开了广泛的全新用例。该模型在作为通用智能体应用于编码框架时表现尤为出色，展现出了极高的适应性和实用性。许多AI社区的研究者...

2026-06-24 talkingdev

IBM Research在Hugging Face博客上发布了其最新的开源项目CUGA（Conversational Universal Generative Agent），这是一个轻量级的智能体（Agent）应用开发框架。CUGA通过统一管理规划、执行和状态维护等复杂环节，极...

2026-06-23 talkingdev

最新发布的开源大语言模型GLM-5.2在多项基准测试中展现出令人瞩目的性能，一举超越当前所有同级别开源模型，成为开源社区的新标杆。该模型在逻辑推理、代码生成以及多语言理解等关键领域表现尤为突出，其评测分数甚...

2026-06-17 talkingdev

Z.ai 最新发布了其AI模型 GLM-5.2，这是一次面向编码领域的重大升级。该模型拥有高达 100 万 token 的超大上下文窗口，能够处理整个代码库的长程编码任务，并引入了新的推理控制机制。GLM-5.2 目前已向 Coding Plan...