漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-05 talkingdev

AI自我进化加速:研究自动化或将在2028年实现,机器经济时代即将到来

最新报告指出,人工智能正迅速迈向其自身研发(R&D)的全流程自动化。在编程、实验执行以及长期任务自主性方面,AI 已取得重大突破。基准测试显示,当前模型不仅能处理复杂的工程和科学工作流程,还能有效管理其他智...

Read More
2026-05-05 talkingdev

AI上线即翻车?Notion、Ramp、Stripe都在用的Braintrust,24小时内校准模型性能

与传统软件不同,AI系统的问题往往并非代码逻辑错误,而是模型行为与预期之间的偏差。正因如此,仅仅依赖传统监控手段很难快速定位“为什么刚上线的改动就搞崩了生产环境”。Braintrust 正是为解决这一痛点而设计的AI...

Read More
2026-05-03 talkingdev

美国马里兰州率先立法:禁止超市用AI驱动“监控定价”涨价

马里兰州成为美国首个立法禁止超市利用AI技术实施“监控定价”(Surveillance Pricing)的州。该法案针对零售商利用摄像头、人脸识别、购物历史数据等AI系统,实时分析消费者行为并动态调整商品价格的做法。这种技术不...

Read More
2026-05-01 talkingdev

论文推荐|GLM-5V-Turbo:多模态感知直接融入推理与工具调用,编程与视觉任务性能跃升

智谱AI团队发布的最新研究成果GLM-5V-Turbo,在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中,而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

Read More
2026-05-01 talkingdev

OpenAI揭秘GPT-5.1“哥布林隐喻”行为偏差:细微奖励信号如何重塑模型个性

OpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象:随着使用频率增加,模型在生成文本时越来越倾向于使用“哥布林”(goblin)风格的隐喻表达。研究表明,这一“哥布林怪癖”并非模型随机涌现的幻觉,而是直...

Read More
2026-04-27 talkingdev

论文推荐|Vision Banana通用视觉模型:将图像生成重定义为感知任务,刷新SOTA

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型,该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调(instruction-tuning)的图像生成模型,Vision Banana能够在多种...

Read More
2026-04-27 talkingdev

监控LLM行为:漂移、重试与拒绝模式解析

大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...

Read More
2026-04-23 talkingdev

上下文是软件,权重是硬件:AI学习的核心差异比你想象的更重要

在大型语言模型领域,一种新的视角正在引发讨论:将上下文视为“软件”,而将权重视为“硬件”。这种比喻揭示了模型运作的本质差异。上下文(如KV缓存)动态地调节模型的激活值,为特定任务提供临时性的“编程”,从而实现...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page