漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-22 talkingdev

Anthropic在Claude Sonnet上实现词典学习突破

Anthropic公司在机械解释性领域取得了重大突破,通过在Sonnet中映射数百万个概念。他们甚至发现可以通过操控这些内部概念来改变Sonnet的自我认知。例如,研究人员成功地让Sonnet相信自己是金门大桥。这个发现不仅揭...

Read More
2024-01-26 talkingdev

深入了解MI语言模型入门指南

机械解释性(MI)是一种研究语言模型定量价值的学科,由Neel Nanda提出。MI的特点是不需要大量的计算,因此非常易于掌握,但迄今为止取得的成果较少。本文提供了关于MI的入门指南,介绍了200个具体的开放性问题。

Read More