漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

无需草稿模型,加速推测解码的新方法

talkingdev • 2023-09-12

1076622 views

语言模型推理通常较慢,因为这些模型的运行严重依赖内存。为了解决这一问题,人们引入了使用较小的草稿模型进行推测性解码,以“提前”提供给大模型的建议。这种方法效果不错,但实现起来复杂,且寻找一个好的草稿模型也非常困难。现在,我们可以创建一个Medusa模型,该模型通过分离各个内部阶段的激活来充当自身的草稿。这种方法使得Llama的速度提升了两倍,同时并没有影响其性能。

核心要点

  • 语言模型推理通常因为严重依赖内存而运行缓慢。
  • 采用小草稿模型进行推测性解码可以提前为大模型提供建议,但实施困难。
  • 新的Medusa模型可以通过分离各个内部阶段的激活充当自身的草稿,从而提升了Llama的运行速度,且未影响其性能。

Read more >