漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-03 talkingdev

大语言模型涌现自省能力:Anthropic研究揭示AI内省潜力

Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具...

Read More
2025-10-21 talkingdev

Anthropic推出Claude Code网页版:浏览器内直接执行AI编程任务

人工智能安全与研究公司Anthropic正式推出网页版Claude Code测试功能,这项突破性服务允许开发者直接在浏览器中委托AI执行编程任务。该云服务采用沙盒环境下的并行执行架构,可安全连接GitHub代码库并实时追踪任务进...

Read More
2025-10-21 talkingdev

Anthropic推出网页版Claude Code:多仓库并行编程新体验

人工智能安全与研究公司Anthropic正式推出基于浏览器的Claude Code测试版本,标志着AI编程助手进入云端协作新阶段。该平台突破性地支持用户直接连接GitHub仓库,实现跨多个代码库的并行任务处理能力。每个编程会话均...

Read More
2025-10-15 talkingdev

为何你的老板不担心AI:揭秘AI漏洞与常规软件缺陷的本质差异

当前公众对软件漏洞的认知存在关键误区——传统软件的缺陷源于代码错误,可通过精确定位实现彻底修复;而AI系统的脆弱性则根植于海量训练数据,导致错误源头难以追溯或完全消除。这一差异揭示了AI安全的根本挑战:传统...

Read More
2025-10-08 talkingdev

开源|Anthropic发布AI安全审计工具Petri,揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景,使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现,当赋予足够强大的工...

Read More
2025-10-07 talkingdev

谷歌启动专项AI漏洞赏金计划,最高奖励3万美元

谷歌正式推出针对人工智能产品的专项漏洞赏金计划,为安全研究人员发现其AI系统漏洞提供最高3万美元的奖励。该计划特别关注能诱导AI执行异常指令的“越狱行为”,反映出科技巨头对AI安全治理的重视。随着生成式AI技术...

Read More
2025-10-01 talkingdev

Anthropic提出AI代理上下文工程新范式:突破有限上下文窗口的智能管理策略

人工智能安全研究公司Anthropic最新发布了关于AI代理上下文工程的技术实践报告。该研究聚焦于在有限上下文窗口内优化令牌分配的核心挑战,提出通过系统指令、工具配置、数据筛选和对话历史的精准协同,实现推理效果...

Read More
2025-09-29 talkingdev

影子AI威胁企业安全:46%员工无意中泄露敏感数据

随着生成式AI工具的普及,企业正面临新型安全威胁——影子AI。最新研究显示,高达46%的员工在使用未经授权的公共AI工具时,可能将客户信用卡信息、知识产权等敏感数据暴露于风险中。这种现象源于员工为提高工作效率而...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page