不安全提示的相关内容 - 漫话开发者 - UWL.ME

漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

2024-02-26 talkingdev

大语言模型中不安全提示的检测方法

GradSafe是一种新的方法，用于检测大型语言模型中的不安全提示，无需进行大量的训练。它通过分析特定参数的梯度，比当前方法更有效地识别不安全的提示。