精准前瞻解码可减少推理延迟2.3倍

talkingdev • 2023-11-23

868957 views

加速自回归语言模型推理的方式有很多。人们正在热衷于使用草稿模型的一种方式。这需要两个模型，但速度可能会更慢。然而，通过从相同模型生成相关的n-gram，可以减轻对草稿模型的需求，并使生成速度线性加快。