推理的相关内容 - 漫话开发者

2024-03-05 talkingdev

使用 Unsolth 加速 Gemma 训练速度 2.4 倍

Unsloth 项目旨在重写训练和推理语言模型的重要内核。它发布了一个示例，其中包括 Google 开源的 Gemma 模型的代码。通过使用 Unsolth，Gemma 的训练速度可以提高 2.4 倍。这个项目的目标是通过修改模型的内核，实现...

2024-03-04 talkingdev

如何加速推理是许多人关注的话题。本代码分享介绍了如何通过静态KV缓存提高Hugging Face框架上Llama模型的推理速度。

2024-02-29 talkingdev

IR-QLoRA是一种新方法，它可以提高量化大型语言模型的准确性，使它们更适合在资源有限的设备上使用。量化是一种通过降低浮点精度来减少计算资源需求的技术。虽然这种方法可以大大减少模型的计算量和存储空间，但它也...

2024-02-28 talkingdev

近日，Meta提出了一种三亿五千万参数的语言模型，其强大的推理能力甚至接近Llama 7B在API函数调用任务中的正确性。该模型尚未发布，但固定参数模型的创新值得探索。

2024-02-26 talkingdev

谷歌工程师和科学家开发了一个新的代码库，名为CPP Gemma推理引擎。与llama.cpp类似，该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。

2024-02-23 talkingdev

GTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力，但在确定性游戏中表现不佳，并且在设计和训练上表现也有所不...

2024-02-23 talkingdev

Lorax是一款支持将多个LoRA模型热插拔到单个基础模型上的推理服务器。这意味着在支持广泛的模型调整范围的同时，RAM内存占用会大幅减少。

2024-02-23 talkingdev

近日，一种名为ChartX的新工具发布在GitHub上，用于测试多模态大语言模型（MLLM）在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力，包括语言和视觉。该工具可以评估多种不...