推理速度的相关内容 - 漫话开发者

2024-03-05 talkingdev

使用 Unsolth 加速 Gemma 训练速度 2.4 倍

Unsloth 项目旨在重写训练和推理语言模型的重要内核。它发布了一个示例，其中包括 Google 开源的 Gemma 模型的代码。通过使用 Unsolth，Gemma 的训练速度可以提高 2.4 倍。这个项目的目标是通过修改模型的内核，实现...

2024-03-04 talkingdev

如何加速推理是许多人关注的话题。本代码分享介绍了如何通过静态KV缓存提高Hugging Face框架上Llama模型的推理速度。

2024-02-19 talkingdev

最近，研究人员提出了一种新方法，称为SLEB，可以通过剪枝冗余的变压器块来加速大型语言模型（LLMs）的训练和推理。该方法可以减少存储空间和计算成本，同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-01-25 talkingdev

本文简要介绍了硬件特定的矩阵乘法优化和一般流程，以加速AI代码。现代深度学习算法中，矩阵乘法是常见的操作。优化矩阵乘法的实现可以显著提高模型的训练和推理速度，进而提高模型的准确性和效率。矩阵乘法优化的主...

2024-01-21 talkingdev

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进，提高了每秒的标记总数性能。第二项是嵌入式领域特定语言，用于复杂提示技术，允许并行提示。

2023-12-12 talkingdev

随着开放模型在许多企业任务中变得有用，人们开始探索部署优化。然而，这个领域很复杂且分散。本文深入探讨了许多用于加速语言模型服务的标准技术。

2023-11-23 talkingdev

加速自回归语言模型推理的方式有很多。人们正在热衷于使用草稿模型的一种方式。这需要两个模型，但速度可能会更慢。然而，通过从相同模型生成相关的n-gram，可以减轻对草稿模型的需求，并使生成速度线性加快。