一次缓存,永久有效:YOCO架构再塑GPU内存需求
talkingdev • 2024-05-10
652903 views
YOCO架构是一种具有全局注意力能力的解码器-解码器模型,能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器,使得关键-值对的缓存和复用更加高效。与传统的Transformer相比,YOCO在推理内存、延迟和吞吐量方面表现出优异的性能,使其适用于大型语言模型和长文本长度。YOCO的出现,无疑为AI的发展提供了新的可能性和方向。
核心要点
- YOCO架构是一种解码器-解码器模型,有效降低了GPU内存需求。
- YOCO架构包含一个自解码器和一个交叉解码器,能有效地缓存和复用关键-值对。
- YOCO在推理内存、延迟和吞吐量方面表现优异,适用于大型语言模型和长文本长度。