漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-01 talkingdev

论文:PowerInfer消费级GPU的LLMs

本文探讨了模型中存在几乎所有输入都会使用的热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU中,您可以节省内存而不会牺牲太多吞吐量。可以使用配套的代码库。

Read More
2023-12-25 talkingdev

论文:消费级GPU上的LLMs PowerInfer

本文探讨了模型拥有热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU上,您可以节省内存而不会牺牲太多吞吐量。同时,该文提供了一个可用的代码库。

Read More