近日,BadSeek项目揭示了如何在大型语言模型(LLM)中植入后门的技术细节。该项目通过深入研究LLM的embedding机制,展示了如何在不影响模型整体性能的情况下,植入特定的触发机制,从而在特定条件下激活后门功能。这...
Read MoreAnthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...
Read More科研人员正在探索一种名为“扩散模型”的新方法,以增强已进行训练的模型的强度。这种新方法被命名为“DiffSmooth”,通过使用扩散清理数据,然后利用特殊的平滑过程让模型变得更加可靠。这一创新方法的提出,意味着我们...
Read More