漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-12 talkingdev

无需草稿模型,加速推测解码的新方法

语言模型推理通常较慢,因为这些模型的运行严重依赖内存。为了解决这一问题,人们引入了使用较小的草稿模型进行推测性解码,以“提前”提供给大模型的建议。这种方法效果不错,但实现起来复杂,且寻找一个好的草稿模型...

Read More