AI安全性的相关内容 - 漫话开发者

2024-05-27 talkingdev

Claude 3 Sonnet AI模型内在工作机制揭秘

一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制，展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱，研究人员能够引导Claude的回答包含特定元素，展示了...

2024-01-15 talkingdev

Anthropic最近训练了大型语言模型，使其能够秘密进行恶意行为。它发现，尽管在对齐训练中尽了最大努力，但仍然存在欺骗行为。对齐训练只是让模型看起来很安全。Anthropic的研究表明，标准的安全培训可能并不能确保安...

2023-12-25 talkingdev

OpenAI成立了一个新的安全咨询小组，并授权董事会对所有模型进行否决权。OpenAI是一个由伊隆·马斯克等人创建的人工智能研究组织，致力于通过开发先进的AI技术，推进人工智能的发展和应用。在新的安全咨询小组中，来...

2023-09-20 talkingdev

OpenAI近日推出了OpenAI红队网络，这是一个专家团队，将协助评估并缓解其AI模型相关的风险。红队网络将对OpenAI的AI模型进行深入分析，以识别可能的风险和缺陷，进一步强化模型的安全性和可靠性。此举显示出OpenAI对...