漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

LLMs使用Dual Chunk Attention处理10万个令牌

talkingdev • 2024-03-01

583529 views

Dual Chunk Attention(DCA)扩展了大型语言模型(如Llama2 70B)的能力,使它们能够处理超过100k个令牌而无需额外的训练。它将注意力计算分解成块,增强了模型对短期和长期上下文的理解。

核心要点

  • Dual Chunk Attention是一种新的注意力计算方法,可以帮助大型语言模型处理更多的令牌。
  • 这种方法可以分解注意力计算,从而提高模型对上下文的理解。
  • 使用Dual Chunk Attention的Llama2 70B可以处理超过100k个令牌,而无需额外的训练。

Read more >