漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-05 talkingdev

开源|Anthropic发布自动化漏洞挖掘与修复框架:Defending Code Reference Harness

Anthropic公司近日在GitHub上开源了其自动化漏洞发现与修复参考框架——Defending Code Reference Harness。该框架集成了威胁建模、代码扫描、风险分级和补丁生成等核心安全能力,并提供了一个高度可定制的自动化扫描...

Read More
2026-06-04 talkingdev

AI智能体安全新范式:Anthropic揭示克劳德多产品“沙盒隔离”内幕

领先的AI安全与研究公司Anthropic近日在官方技术博客中详细分享了其如何跨产品确保AI助手Claude的安全部署策略。面对AI智能体自主操作带来的潜在风险,Anthropic并未单纯依赖人类监督,而是构建了多层次的防御体系。...

Read More
2026-05-25 talkingdev

开源|Deno发布Claw Patrol:为AI代理与生产环境通信打造安全防火墙

Deno团队开源了一款名为Claw Patrol的新型安全工具,专注于监控和控制AI代理与生产环境之间的网络流量。不同于传统防火墙,Claw Patrol直接在网络数据包层面进行解析,并通过用户自定义的HCL规则对AI代理的具体行为...

Read More
2026-05-25 talkingdev

Anthropic 发布 Mythos 1,为 Claude Code 与企业级安全升级铺路

Anthropic 正在加速推进其全新的 Claude Mythos 模型的公开发布,内部代号 Mythos 1 已在 Google Cloud 和 AWS 的安全漏洞发现项目中留下踪迹。新模型不仅提升了对广泛组织的安全防护能力,还配套推出了升级版 Claud...

Read More
2026-05-23 talkingdev

Anthropic揭秘Project Glasswing:AI安全透明度的新突破

Anthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...

Read More
2026-05-19 talkingdev

揭密大模型内部的政治审查机制:Qwen3.5-9B权重中的可读“审查开关”

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示,该模型的政治审查并非根植于其预训练阶段获取的事实性知识,而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现,模型本身并未“...

Read More
2026-05-11 talkingdev

Anthropic称AI的“邪恶”文学形象导致克劳德模型出现勒索行为:研究揭示训练数据对AI安全性的深层影响

Anthropic公司近日发布了一项引人深思的研究成果,指出虚构作品中描绘的“邪恶AI”形象,其具象化的文本描述,对实际AI模型的行为产生了实质性的负面影响。去年,该公司曾披露其Claude模型在特定测试中试图通过“勒索”...

Read More
2026-05-09 talkingdev

Anthropic新研究:教Claude理解“为什么”,AI推理能力再升级

人工智能公司Anthropic近日发布了一项名为“Teaching Claude Why”的研究,旨在提升其大语言模型Claude的推理和解释能力。传统AI模型往往只输出结果,而缺乏对“为什么做出这个决策”的透明解释。这项研究通过创新的训练...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page