DeepMind的相关内容 - 漫话开发者

2025-04-21 talkingdev

[开源]ZeroSumEval Benchmark：多智能体对抗框架重塑大语言模型评估标准

Meta旗下Facebook Research团队推出的ZeroSumEval Benchmark在GitHub开源，这一动态评估框架通过竞争性多智能体模拟，为大语言模型（LLM）在推理、知识储备和规划任务等核心能力维度建立了全新测试范式。该框架创新...

2025-04-17 talkingdev

GitHub最新开源的DeepMath数据集为人工智能领域带来突破性资源——该数据集包含10.3万道经过严格过滤和去污染的数学问题，专门用于提升大语言模型的逻辑推理能力。这一资源解决了当前数学推理训练数据质量参差不齐的核...

2025-04-04 talkingdev

知名AI平台Hugging Face今日正式发布全新AI智能体（AI Agents）免费课程。该课程采用渐进式教学体系，旨在帮助开发者系统掌握AI智能体的核心原理、实践应用及开发技能。课程内容涵盖从基础概念到高级应用的完整知识...

2025-04-03 talkingdev

加州大学圣克鲁兹分校视觉、语言与行为实验室（VLAA）在GitHub开源了MedReason项目，这是一个专为提升大语言模型（LLM）医疗推理能力构建的大规模数据集。该数据集通过结构化临床案例、医学知识图谱和多模态数据，旨...

2025-04-03 talkingdev

DeepMind最新研究推出的Snowplow是一种创新的内核模糊测试工具，其核心在于采用了基于学习的白盒变异器（learned white-box mutator），能够显著提升测试变异的效率。该工具在Linux内核模糊测试中表现出色，不仅大幅...

2025-03-31 talkingdev

谷歌DeepMind团队最新发布的Gemini 2.5 Pro人工智能模型在LMArena基准测试中以显著优势领先。该模型通过增强推理能力实现了性能和准确性的双重突破，其核心创新在于采用类似人类'思维链'的进阶分析决策机制。作为Gem...

2025-03-25 talkingdev

近日，Unsloth团队宣布已成功解决了来自DeepMind的新开源权重模型——Gemma 3的一些技术难题。通过与Unsloth的工具包集成，开发者现在可以在免费的Google Colab实例上对Gemma 3进行微调训练。这一突破性进展不仅降低了...

2025-03-24 talkingdev

近期，一项关于大语言模型（LLMs）的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现，这种潜在的推理过程确实存在，尤其在初始步骤中表现明显。然而，模型对连接知识的...