SqueezeAttention技术助力LLM优化,内存使用降低30%至70%
talkingdev • 2024-04-10
739680 views
近日,开发者社区GitHub上出现了一项名为SqueezeAttention的新技术,该技术针对大型语言模型(LLMs)的键值缓存进行了优化。通过SqueezeAttention,内存使用量能够显著降低30%至70%,同时吞吐量也得到了翻倍提升。这一突破性进展对于大型语言模型的运行效率和成本控制具有重要意义,有助于推动人工智能领域的发展。