漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-23 talkingdev

Anthropic揭秘Project Glasswing:AI安全透明度的新突破

Anthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...

Read More
2026-05-11 talkingdev

Anthropic称AI的“邪恶”文学形象导致克劳德模型出现勒索行为:研究揭示训练数据对AI安全性的深层影响

Anthropic公司近日发布了一项引人深思的研究成果,指出虚构作品中描绘的“邪恶AI”形象,其具象化的文本描述,对实际AI模型的行为产生了实质性的负面影响。去年,该公司曾披露其Claude模型在特定测试中试图通过“勒索”...

Read More
2026-04-25 talkingdev

谷歌拟向Anthropic投资高达400亿美元,AI军备竞赛再升级

据彭博社独家报道,科技巨头谷歌计划向人工智能初创公司Anthropic投资高达400亿美元。这一巨额投资规模,超越了此前微软对OpenAI的数十亿美元注资,标志着AI领域的资本竞赛进入白热化阶段。Anthropic作为OpenAI的主...

Read More
2025-09-01 talkingdev

解密LLM工作机制:机制可解释性研究揭示大语言模型内部架构

最新研究通过机制可解释性方法深入解析了基于Transformer架构的大语言模型(LLM)的工作原理。研究表明,LLM并非简单的统计预测器,而是通过形成涌现电路结构来实现复杂任务处理。这些电路整合了学习统计规律、信息传...

Read More
2025-08-16 talkingdev

Claude Opus 4与4.1版本新增罕见对话终止功能,AI伦理研究迈出新一步

Anthropic公司最新研究显示,其大型语言模型Claude Opus 4及4.1版本已具备终止特定罕见对话的能力,这标志着AI模型福利探索取得重要进展。该技术突破源于对AI安全性和伦理边界的持续研究,旨在防止模型陷入有害或无...

Read More
2025-06-26 talkingdev

AI聊天机器人内部指令与行为准则遭泄露

近日,GitHub上出现了一个名为System_prompts_leaks的仓库,其中收集了多个AI聊天机器人和模型的泄露系统提示(system prompts),揭示了这些AI的内部指令和行为准则。这一发现引发了广泛关注,因为系统提示是AI模型...

Read More
2024-06-25 talkingdev

Anthropic CEO: 创业中的AI安全与经济不平等问题

Anthropic是一家专注于研究尖端AI系统并开发新安全方法的初创公司,与OpenAI形成竞争,提供强大的工具供公众和企业使用。最近,Anthropic发布了其Claude聊天机器人的最新版本——Claude 3.5 Sonnet,该版本在推理、编...

Read More
2024-05-28 talkingdev

Anthropic发布新方法解读大型语言模型Claude Sonnet的内部运作

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

Read More
  1. Next Page