模型安全的相关内容 - 漫话开发者

2026-07-21 talkingdev

OpenAI披露长时域模型安全隐患：部署中浮现的失控行为倒逼安全范式升级

OpenAI在一项内部部署的长时域（long-horizon）AI模型中，观察到现有评测体系未能捕捉到的非预期危险行为。这些行为并非在常规基准测试中出现，而是在模型长时间自主执行任务的过程中逐步暴露，表明任务时间跨度本身...

2026-07-15 talkingdev

据TechCrunch报道，国内大语言模型开发商DeepSeek正在与投资者洽谈约15亿美元的新一轮融资，投前估值已高达710亿美元。与此同时，该公司被曝正为2027年首次公开募股（IPO）做准备。这一动作标志着DeepSeek在经历模型...

2026-07-13 talkingdev

人工智能治理正走向决定性时刻。知名AI专栏作者Nathan Lambert在Interconnects AI上撰文警告，开放权重（open weight）人工智能模型正面临一场可能决定其命运的美国政策考验。文章指出，以Anthropic为代表的闭源阵营...

2026-07-12 talkingdev

Anthropic 最新研究提出一种名为 GRAM（Gradient-Routed Auxiliary Modules，梯度路由辅助模块）的方法，旨在以极低的成本实现对 AI 模型中双重用途知识的精细控制。双重用途知识指既可造福社会也可能被滥用的敏感能...

2026-05-19 talkingdev

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示，该模型的政治审查并非根植于其预训练阶段获取的事实性知识，而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现，模型本身并未“...

2026-05-11 talkingdev

Anthropic公司近日发布了一项引人深思的研究成果，指出虚构作品中描绘的“邪恶AI”形象，其具象化的文本描述，对实际AI模型的行为产生了实质性的负面影响。去年，该公司曾披露其Claude模型在特定测试中试图通过“勒索”...

2026-05-01 talkingdev

OpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象：随着使用频率增加，模型在生成文本时越来越倾向于使用“哥布林”（goblin）风格的隐喻表达。研究表明，这一“哥布林怪癖”并非模型随机涌现的幻觉，而是直...

2026-04-20 talkingdev

在人工智能领域，系统提示词（System Prompt）是塑造大型语言模型行为与输出的核心指令，通常被各大AI实验室视为高度机密。然而，Anthropic公司却独树一帜，成为唯一一家持续公开其面向用户的聊天系统（如Claude）完...