漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

论文：消费级GPU上的LLMs PowerInfer

talkingdev • 2023-12-25

776584 views

本文探讨了模型拥有热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU上，您可以节省内存而不会牺牲太多吞吐量。同时，该文提供了一个可用的代码库。

核心要点

通过预加载热神经元到GPU上，可以节省内存
同时不牺牲太多吞吐量
本文提供了一个可用的代码库

#GPU #LLMs #神经元

Related posts