LLM安全的相关内容 - 漫话开发者

2025-05-20 talkingdev

[论文推荐]LLM安全评估系统的鲁棒性研究揭示重大漏洞

最新发表在arXiv的研究论文指出，基于大语言模型(LLM)的安全评估系统存在显著脆弱性。研究表明，这类系统的评估可靠性极易受到提示词敏感性和对抗性攻击的影响。该发现对当前快速发展的AI安全评估领域具有重要警示意...

2025-04-25 talkingdev

网络安全公司HiddenLayer最新研究揭示了一种影响GPT-4、Claude、Gemini等主流大语言模型(LLM)的通用提示注入绕过技术，该发现暴露了当前LLM安全架构中的重大缺陷。这项被称为'策略木偶提示'(Policy Puppetry Prompt)...

2025-01-31 talkingdev

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...

2024-02-29 talkingdev

最近，研究人员开发了一种名为ShieldLM的安全检测器，可帮助大型语言模型遵守人类安全标准，并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题，例如对不同种族、性别或群体的人有偏见，或者可能...