Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...
Read More人工智能安全与研究公司Anthropic正式推出网页版Claude Code测试功能,这项突破性服务允许开发者直接在浏览器中委托AI执行编程任务。该云服务采用沙盒环境下的并行执行架构,可安全连接GitHub代码库并实时追踪任务进...
Read More人工智能安全与研究公司Anthropic正式推出基于浏览器的Claude Code测试版本,标志着AI编程助手进入云端协作新阶段。该平台突破性地支持用户直接连接GitHub仓库,实现跨多个代码库的并行任务处理能力。每个编程会话均...
Read More当前公众对软件漏洞的认知存在关键误区——传统软件的缺陷源于代码错误,可通过精确定位实现彻底修复;而AI系统的脆弱性则根植于海量训练数据,导致错误源头难以追溯或完全消除。这一差异揭示了AI安全的根本挑战:传统...
Read More人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...
Read More谷歌正式推出针对人工智能产品的专项漏洞赏金计划,为安全研究人员发现其AI系统漏洞提供最高3万美元的奖励。该计划特别关注能诱导AI执行异常指令的“越狱行为”,反映出科技巨头对AI安全治理的重视。随着生成式AI技术...
Read More人工智能安全研究公司Anthropic最新发布了关于AI代理上下文工程的技术实践报告。该研究聚焦于在有限上下文窗口内优化令牌分配的核心挑战,提出通过系统指令、工具配置、数据筛选和对话历史的精准协同,实现推理效果...
Read More随着生成式AI工具的普及,企业正面临新型安全威胁——影子AI。最新研究显示,高达46%的员工在使用未经授权的公共AI工具时,可能将客户信用卡信息、知识产权等敏感数据暴露于风险中。这种现象源于员工为提高工作效率而...
Read More