论文:Transformer-Lite,在手机GPU上运行大型语言模型
talkingdev • 2024-04-02
761764 views
在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段,成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约3倍,为在资源受限的移动设备上部署大型语言模型提供了新的可能性。
talkingdev • 2024-04-02
761764 views
在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段,成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约3倍,为在资源受限的移动设备上部署大型语言模型提供了新的可能性。