最近邻攻击是一种新型的安全威胁,它通过精心设计的输入扰动,使得机器学习模型的预测结果偏离真实目标,而指向攻击者指定的最近邻类别。这种攻击手段对于基于深度学习的图像识别系统尤为危险,因为它可以迷惑模型,...
Read MoreGraySwan灰鹅AI,一家专注于AI安全和防护的公司,专业构建工具帮助各大公司评估他们的AI系统的风险,以及保护他们的AI部署免受有害使用。在AI安全领域,灰鹅AI以其专业和创新的技术手段,为众多企业提供了有效的防护...
Read More十年前,Nick Bostrom的影响力之作《超级智能》问世。如今,人工智能的进步使得人工普适智能(AGI)及其风险成为主流讨论的重点。在2024年这个转折点,AI研究社区现在正在紧急解决AI安全问题,以确保其控制力和与人...
Read MoreAnthropic是一家专注于研究尖端AI系统并开发新安全方法的初创公司,与OpenAI形成竞争,提供强大的工具供公众和企业使用。最近,Anthropic发布了其Claude聊天机器人的最新版本——Claude 3.5 Sonnet,该版本在推理、编...
Read MoreAnthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...
Read More一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制,展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱,研究人员能够引导Claude的回答包含特定元素,展示了...
Read More谷歌DeepMind近日推出了一项名为“先锋安全框架”的新技术,以应对未来先进AI模型可能带来的风险。这个框架确定了对可能有害的AI能力的关键能力级别(CCLs),并根据这些CCLs对模型进行评估,当达到阈值时,应用缓解策...
Read More有效利他主义和有效加速主义是两种不同的思想流派,两者在大部分问题上达成了共识,但在人工智能(AI)安全这个话题上却存在分歧。有效利他主义强调将资源用于最大程度上的做出善行,而有效加速主义则主张利用技术的...
Read More近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...
Read More许多组织正在努力应对快速发展的人工智能技术所带来的挑战。其中一些举措可能被视为反竞争。这是一个复杂的问题,双方都有有效的论点。AI安全组织是否想禁止开源? 这个问题涉及到很多方面,例如数据隐私、知识产权等...
Read More