论文：Transformer-Lite，在手机GPU上运行大型语言模型

talkingdev • 2024-04-02

1098779 views

在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段，成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约3倍，为在资源受限的移动设备上部署大型语言模型提供了新的可能性。