微信扫码实时跟踪AI前沿
近日,一种名为VIRUS的方法在GitHub上开源,该方法旨在生成对抗性数据,以绕过大型语言模型(LLM)的审核系统,并破坏其安全对齐机制。VIRUS通过精心设计的输入数据,能够有效规避现有的内容过滤和防护措施,从而对L...
最近,研究人员开发了一种名为ShieldLM的安全检测器,可帮助大型语言模型遵守人类安全标准,并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题,例如对不同种族、性别或群体的人有偏见,或者可能...