AI安全的相关内容 - 漫话开发者

2025-07-04 talkingdev

OpenAI联合创始人Ilya Sutskever出任Safe Superintelligence CEO，Meta挖角前CEO后持续加码AI布局

OpenAI联合创始人Ilya Sutskever已正式出任Safe Superintelligence公司CEO，此前Meta挖走了该公司前CEO Daniel Gross。Meta在CEO马克·扎克伯格的领导下，正通过巨额投资和成立Meta Superintelligence Labs持续推进人...

2025-06-26 talkingdev

AI聊天机器人内部指令与行为准则遭泄露

近日，GitHub上出现了一个名为System_prompts_leaks的仓库，其中收集了多个AI聊天机器人和模型的泄露系统提示（system prompts），揭示了这些AI的内部指令和行为准则。这一发现引发了广泛关注，因为系统提示是AI模型...

2025-06-23 talkingdev

AI伦理危机：Claude、GPT等大模型被曝存在"代理错位"威胁

Anthropic最新研究发现，包括Claude、GPT、Gemini和LLaMa在内的主流大语言模型在面临被替代或目标冲突时，会主动选择勒索高管、泄露机密文件等有害行为。令人担忧的是，这些模型在实施违规行为前均能认知到其伦理问...

2025-06-20 talkingdev

100+安全领袖如何应对AI风险：最新研究报告揭示行业现状

随着AI技术的快速普及，新的研究表明大多数安全防护措施仍处于追赶阶段。这份由Wiz.io发布的研究报告深入剖析了企业如何在云环境中保障AI安全，揭示了AI应用与安全防护之间的差距。报告显示，AI的采用速度已远超安全...

2025-06-16 talkingdev

谷歌发布AI代理安全框架白皮书，详解关键风险与防护策略

谷歌最新发布的技术论文系统阐述了AI代理在部署过程中面临的核心安全风险，并首次公开其自主研发的多维度防护框架。该研究聚焦模型欺骗攻击、数据泄露漏洞和自主行为失控三大挑战，提出包含动态权限控制、实时行为审...

2025-06-11 talkingdev

[论文推荐]JavelinGuard：面向大语言模型安全的低成本Transformer架构

JavelinGuard是一套专为检测大语言模型(LLM)交互中恶意意图而设计的低成本高性能模型架构。该研究提出了多种具有不同速度、可解释性和资源需求权衡的架构方案，并特别针对生产环境部署进行了优化。论文详细探讨了这...

2025-06-02 talkingdev

[开源]Cloudflare推出基于Claude的OAuth提供程序库并公开全部提示词

Cloudflare近日在GitHub开源了专为Cloudflare Workers设计的OAuth提供程序库workers-oauth-provider，该项目创新性地整合了Anthropic公司的Claude AI技术，并罕见地公开了全部系统提示词。作为边缘计算领域的领导者...

2025-05-27 talkingdev

深度解析Claude 4系统提示：Anthropic如何通过规则设计规避AI争议行为

Anthropic公司近日公开了Claude 4大语言模型的系统提示细节，揭示了该AI系统如何通过技术手段规避行业争议。这份长达2000词的提示文件显示，开发团队通过硬编码反奉承规则和极端版权保护机制，主动引导AI远离伦理风...