对抗性数据的相关内容 - 漫话开发者

2025-01-31 talkingdev

VIRUS方法突破LLM安全防护，开源项目引发关注

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...