漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

RWKV发布Eagle 7B模型

talkingdev • 2024-01-31

669929 views

RWKV是主流Transformer模型的一种架构替代方案。它使用一种新颖的线性注意力机制,使其极其高效。这个新的检查点和配置是在1T令牌上训练的,超越了许多其他功能强大的基于7B Transformer的模型。

核心要点

  • RWKV发布Eagle 7B,这是一种架构替代方案
  • Eagle 7B使用新颖的线性注意力机制,使其极其高效
  • Eagle 7B在1T令牌上训练,超越了许多其他基于7B Transformer的模型

Read more >