Anthropic公司近日在GitHub上开源了其自动化漏洞发现与修复参考框架——Defending Code Reference Harness。该框架集成了威胁建模、代码扫描、风险分级和补丁生成等核心安全能力,并提供了一个高度可定制的自动化扫描...
Read More领先的AI安全与研究公司Anthropic近日在官方技术博客中详细分享了其如何跨产品确保AI助手Claude的安全部署策略。面对AI智能体自主操作带来的潜在风险,Anthropic并未单纯依赖人类监督,而是构建了多层次的防御体系。...
Read MoreDeno团队开源了一款名为Claw Patrol的新型安全工具,专注于监控和控制AI代理与生产环境之间的网络流量。不同于传统防火墙,Claw Patrol直接在网络数据包层面进行解析,并通过用户自定义的HCL规则对AI代理的具体行为...
Read MoreAnthropic 正在加速推进其全新的 Claude Mythos 模型的公开发布,内部代号 Mythos 1 已在 Google Cloud 和 AWS 的安全漏洞发现项目中留下踪迹。新模型不仅提升了对广泛组织的安全防护能力,还配套推出了升级版 Claud...
Read MoreAnthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...
Read More一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示,该模型的政治审查并非根植于其预训练阶段获取的事实性知识,而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现,模型本身并未“...
Read MoreAnthropic公司近日发布了一项引人深思的研究成果,指出虚构作品中描绘的“邪恶AI”形象,其具象化的文本描述,对实际AI模型的行为产生了实质性的负面影响。去年,该公司曾披露其Claude模型在特定测试中试图通过“勒索”...
Read More人工智能公司Anthropic近日发布了一项名为“Teaching Claude Why”的研究,旨在提升其大语言模型Claude的推理和解释能力。传统AI模型往往只输出结果,而缺乏对“为什么做出这个决策”的透明解释。这项研究通过创新的训练...
Read More