人工智能安全的相关内容 - 漫话开发者

2025-11-25 talkingdev

重磅发布：Anthropic推出Claude Opus 4.5模型，AI安全领域再获突破

人工智能安全与研究公司Anthropic正式发布Claude Opus 4.5模型，标志着可信AI系统建设迈入新阶段。作为专注于构建可靠、可解释与可操控AI系统的先锋企业，Anthropic此次更新延续了其在前沿AI安全技术领域的深度布局...

2025-11-03 talkingdev

Anthropic最新研究通过‘概念注入’实验，首次系统验证了大语言模型的内省能力。研究显示，特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念，并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

2025-10-21 talkingdev

人工智能安全与研究公司Anthropic正式推出网页版Claude Code测试功能，这项突破性服务允许开发者直接在浏览器中委托AI执行编程任务。该云服务采用沙盒环境下的并行执行架构，可安全连接GitHub代码库并实时追踪任务进...

2025-10-21 talkingdev

人工智能安全与研究公司Anthropic正式推出基于浏览器的Claude Code测试版本，标志着AI编程助手进入云端协作新阶段。该平台突破性地支持用户直接连接GitHub仓库，实现跨多个代码库的并行任务处理能力。每个编程会话均...

2025-10-15 talkingdev

当前公众对软件漏洞的认知存在关键误区——传统软件的缺陷源于代码错误，可通过精确定位实现彻底修复；而AI系统的脆弱性则根植于海量训练数据，导致错误源头难以追溯或完全消除。这一差异揭示了AI安全的根本挑战：传统...

2025-10-08 talkingdev

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工...

2025-10-07 talkingdev

谷歌正式推出针对人工智能产品的专项漏洞赏金计划，为安全研究人员发现其AI系统漏洞提供最高3万美元的奖励。该计划特别关注能诱导AI执行异常指令的“越狱行为”，反映出科技巨头对AI安全治理的重视。随着生成式AI技术...

2025-10-01 talkingdev

人工智能安全研究公司Anthropic最新发布了关于AI代理上下文工程的技术实践报告。该研究聚焦于在有限上下文窗口内优化令牌分配的核心挑战，提出通过系统指令、工具配置、数据筛选和对话历史的精准协同，实现推理效果...