ShieldLM的相关内容 - 漫话开发者

2024-02-29 talkingdev

ShieldLM：支持自定义检测与决策解释的LLM安全检测器

最近，研究人员开发了一种名为ShieldLM的安全检测器，可帮助大型语言模型遵守人类安全标准，并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题，例如对不同种族、性别或群体的人有偏见，或者可能...