基准测试的相关内容 - 漫话开发者

2025-07-09 talkingdev

AI2发布全开源语言模型OLMo 2系列，32B版本超越GPT-3.5 Turbo

艾伦人工智能研究所（AI2）近日推出OLMo 2全开源语言模型家族，标志着大模型开源生态取得重大突破。该系列包含32B、13B、7B和1B四种参数规模，其中旗舰型号OLMo 2 32B成为首个在主流基准测试中同时超越GPT-3.5 Turbo...

2025-07-07 talkingdev

近日，研究人员发布了新一代商业级大语言模型Mercury，该模型基于扩散模型技术，采用Transformer架构进行参数化，并能够并行预测多个token。报告重点介绍了Mercury Coder，这是首套专为编程应用设计的扩散大语言模型...

2025-07-07 talkingdev

Morph团队近日推出了一款名为Morph的AI代码编辑工具，其核心创新在于能够以每秒4500个令牌（tokens）的速度直接应用AI生成的代码编辑到现有文件中，解决了传统全文件重写或搜索替换方法速度慢、易出错的问题。该工具...

2025-07-04 talkingdev

一项创新的推理时间扩展方法通过结合o4-mini、Gemini-2.5-Pro和DeepSeek-R1三种AI模型，在ARC-AGI-2基准测试中实现了30%的性能提升，显著优于单个模型的表现。该技术采用动态选择机制，根据问题特性自动分配最适合的...

2025-06-25 talkingdev

NVIDIA实验室最新发布的PS3技术，通过选择性编码（selective encoding）实现了高达4K分辨率的视觉预训练，为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力，解决了传统方法在...

2025-06-24 talkingdev

一项突破性研究展示了小模型通过创新训练方法战胜巨型模型的可能。日本Sakana.AI团队开发的"教师模型"采用全新范式——这些模型不需要自行解决问题，而是被直接提供问题和正确答案，专注于生成清晰易懂的解决方案解释...

2025-06-24 talkingdev

最新发表于arXiv的研究表明，通过在训练前随机剪除固定比例的权重参数，稀疏深度强化学习(DRL)网络展现出显著的参数效率优势。该方法不仅减少了模型复杂度，还成功规避了传统训练过程中常见的优化陷阱。这种一次性剪...

2025-06-20 talkingdev

最新研究表明，通过StochasTok训练方法可显著提升大语言模型对子词结构的理解能力。该创新技术采用随机分解标记的策略，在训练过程中让模型以多种拆分形式接触词汇（如将'strawberry'随机拆分为'straw|berry'、'str|...