研究人员近日推出名为SpatialScore的多模态基准测试套件,专门用于评估大型模型在3D空间理解方面的能力。这一创新性基准整合了来自12个不同数据集的28,000个样本,为衡量AI系统的空间推理性能提供了全面且标准化的评...
Read MoreNetflix近日公开了其最新研发的FM-Intent模型,这是一种基于分层多任务学习(Hierarchical Multi-Task Learning)的先进推荐算法。该技术通过分析用户会话中的隐式信号(implicit signals),精准建模用户意图,从而...
Read MoreHugging Face近期将其Tiny Agent设计理念扩展至Python领域,通过创新的模型上下文协议(Model Context Protocol, MCP)显著简化了大语言模型(LLMs)的工具集成流程。这一突破性进展使开发者仅需约70行代码即可构建...
Read MoreOpenAI近日宣布其浏览器智能代理O3 Operator完成重大升级,原基于GPT-4o的模型架构已被全新的CUA(Cognitive Unified Architecture)技术体系取代。这一变革标志着OpenAI在轻量化AI代理领域取得突破性进展——CUA架构...
Read More本文为资深及以上级别工程师提供了一系列关于使用大型语言模型(LLM)进行协作编程的实用资源。文章探讨了如何将LLM技术融入传统的结对编程流程,以提升开发效率和代码质量。作者分享了实际应用场景中的经验总结,包...
Read More近日,一位研究人员通过OpenAI的o3模型成功发现了Linux内核SMB实现中的一个远程零日漏洞(CVE-2025-37899)。该漏洞的发现过程仅使用了o3 API,展示了AI在网络安全领域的强大潜力。SMB(Server Message Block)协议...
Read More近期大型推理模型的显著成果常被归功于思维链(CoT)技术,尤其是通过从基础大语言模型(LLM)中采样CoT进行训练以发现新推理模式的过程。然而,一项最新研究对这种解释提出了质疑。该研究通过系统性地调查中间标记...
Read More集体智慧项目(CIP)最新研究指出,当大语言模型(LLM)被应用于敏感领域的决策判断时,即便采用常见的提示工程方法,其裁决仍表现出不可预测的隐藏测量偏差,导致结果不可靠。研究发现,位置偏好、顺序效应和提示敏...
Read More