漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

论文:消费级GPU上的LLMs PowerInfer

talkingdev • 2023-12-25

776584 views

本文探讨了模型拥有热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU上,您可以节省内存而不会牺牲太多吞吐量。同时,该文提供了一个可用的代码库。

核心要点

  • 通过预加载热神经元到GPU上,可以节省内存
  • 同时不牺牲太多吞吐量
  • 本文提供了一个可用的代码库

Read more >