最新报告指出,人工智能正迅速迈向其自身研发(R&D)的全流程自动化。在编程、实验执行以及长期任务自主性方面,AI 已取得重大突破。基准测试显示,当前模型不仅能处理复杂的工程和科学工作流程,还能有效管理其他智...
Read More与传统软件不同,AI系统的问题往往并非代码逻辑错误,而是模型行为与预期之间的偏差。正因如此,仅仅依赖传统监控手段很难快速定位“为什么刚上线的改动就搞崩了生产环境”。Braintrust 正是为解决这一痛点而设计的AI...
Read More马里兰州成为美国首个立法禁止超市利用AI技术实施“监控定价”(Surveillance Pricing)的州。该法案针对零售商利用摄像头、人脸识别、购物历史数据等AI系统,实时分析消费者行为并动态调整商品价格的做法。这种技术不...
Read More智谱AI团队发布的最新研究成果GLM-5V-Turbo,在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中,而非作为独立的预处理步骤。这意味着模型能够同时处理并理...
Read MoreOpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象:随着使用频率增加,模型在生成文本时越来越倾向于使用“哥布林”(goblin)风格的隐喻表达。研究表明,这一“哥布林怪癖”并非模型随机涌现的幻觉,而是直...
Read More来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型,该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调(instruction-tuning)的图像生成模型,Vision Banana能够在多种...
Read More大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...
Read More在大型语言模型领域,一种新的视角正在引发讨论:将上下文视为“软件”,而将权重视为“硬件”。这种比喻揭示了模型运作的本质差异。上下文(如KV缓存)动态地调节模型的激活值,为特定任务提供临时性的“编程”,从而实现...
Read More