AI安全的相关内容 - 漫话开发者

2025-04-18 talkingdev

Goodfire完成5000万美元A轮融资，专注AI模型可解释性与行为控制研究

AI可解释性领域领军企业Goodfire近日宣布完成5000万美元A轮融资。该公司在稀疏自编码器（SAEs）等机械可解释性技术上具有深厚积累，致力于通过与闭源及开源模型提供方的深度合作，系统性地解析、引导和控制AI模型的...

2025-04-04 talkingdev

最新研究发现，当前广泛应用的CLIP（Contrastive Language-Image Pretraining）多模态模型存在严重的安全隐患。根据arXiv最新论文披露，攻击者通过数据投毒（poisoning）方式植入后门，仅需污染0.5%的训练数据即可实...

2025-03-31 talkingdev

最新研究揭示了现有防御有害微调攻击（Harmful Fine-Tuning Attacks）方法的脆弱性，并提出了一种名为Panacea的创新解决方案。该方案采用自适应扰动技术，在保持模型微调性能的同时有效维护模型安全性。这一突破性进...

2025-03-04 talkingdev

随着技术的进步，现代机器人变得越来越智能，能够执行JavaScript、存储cookies、轮换IP地址，甚至利用AI破解CAPTCHA。面对日益复杂的攻击手段，传统的检测方法已不足以应对。WorkOS Radar应运而生，成为一站式机器人...

2025-02-27 talkingdev

近日，AISafetyLab在GitHub上发布了一个全面的AI安全框架，旨在为研究人员和开发者提供一套完整的工具集，以应对AI系统中的安全问题。该框架不仅包含了多种模型和数据集，还提供了实用的工具和一系列与AI安全相关的...

2025-02-14 talkingdev

OpenAI近日宣布与SoftBank合作，利用AI技术自动化白领工作流程，这一举措引发了关于大规模失业的广泛讨论。与此同时，OpenAI还推出了一款新的AI agent用于研究，并发布了o3-mini推理模型。欧盟则对高风险AI系统实施...

2024-11-25 talkingdev

最近邻攻击是一种新型的安全威胁，它通过精心设计的输入扰动，使得机器学习模型的预测结果偏离真实目标，而指向攻击者指定的最近邻类别。这种攻击手段对于基于深度学习的图像识别系统尤为危险，因为它可以迷惑模型，...

2024-07-17 talkingdev

GraySwan灰鹅AI，一家专注于AI安全和防护的公司，专业构建工具帮助各大公司评估他们的AI系统的风险，以及保护他们的AI部署免受有害使用。在AI安全领域，灰鹅AI以其专业和创新的技术手段，为众多企业提供了有效的防护...