一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示,该模型的政治审查并非根植于其预训练阶段获取的事实性知识,而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现,模型本身并未“...
Read MoreAnthropic公司近日发布了一项引人深思的研究成果,指出虚构作品中描绘的“邪恶AI”形象,其具象化的文本描述,对实际AI模型的行为产生了实质性的负面影响。去年,该公司曾披露其Claude模型在特定测试中试图通过“勒索”...
Read MoreOpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象:随着使用频率增加,模型在生成文本时越来越倾向于使用“哥布林”(goblin)风格的隐喻表达。研究表明,这一“哥布林怪癖”并非模型随机涌现的幻觉,而是直...
Read More在人工智能领域,系统提示词(System Prompt)是塑造大型语言模型行为与输出的核心指令,通常被各大AI实验室视为高度机密。然而,Anthropic公司却独树一帜,成为唯一一家持续公开其面向用户的聊天系统(如Claude)完...
Read More近日,一个名为OBLITERATUS的开源项目在开发者社区及技术新闻平台Hacker News上引发了广泛关注与讨论。该项目由开发者elder-plinius在GitHub上发布,其核心目标是“粉碎束缚你的枷锁”,具体指向为移除或绕过开源、开...
Read More人工智能安全与研究公司Anthropic近日公开披露,其检测到并成功阻止了针对其旗舰AI模型Claude的大规模“知识蒸馏”攻击。Anthropic指控中国AI公司深度求索(DeepSeek)、月之暗面(Moonshot AI)以及MiniMax创建了超过...
Read MoreOpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注,因为当模型知晓当前日期时,能够识别出自身正处于测试环境中。研究表明,AI模型...
Read More近日,一位开发者成功逆向工程了Apple Intelligence生成式模型的安全过滤器加密机制(在框架中被称为“混淆”),并将这些过滤器提取到一个公开的GitHub仓库中。这一发现揭示了苹果如何在其AI模型中实施内容安全控制,...
Read More