内存优化的相关内容 - 漫话开发者

2025-07-04 talkingdev

本地运行与微调Gemma 3N指南：基于llama.cpp与Unsloth的实践方案

谷歌最新推出的Gemma 3N模型现可通过Dynamic GGUFs技术在本地环境中运行，技术社区已实现与llama.cpp、Ollama及Open WebUI生态的无缝集成。本文详解三种部署方案的技术要点：1）利用llama.cpp的量化推理优化实现低资...

2025-02-26 talkingdev

近日，Character AI在其大规模推理系统中成功减少了KV缓存的使用，并在一个简化版的GPT模型中实现了这一优化。通过这一技术改进，内存使用量减少了40%。这一优化不仅提升了系统的运行效率，还为未来更大规模的AI模型...

2024-05-10 talkingdev

YOCO架构是一种具有全局注意力能力的解码器-解码器模型，能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器，使得关键-值对的缓存和复用更加高效。与传统的Transformer相比，YOCO在推理内存、延迟和吞吐...

2024-05-02 talkingdev

Lightplane Renderer和Splatter组件是一种全新的方法，它极大地降低了2D-3D映射中的内存使用。Lightplane Renderer技巧性地从神经3D字段生成图像，而Lightplane Splatter则高效地将这些图像投射到3D Hash结构中。通...

2024-04-08 talkingdev

Qwen团队最新力作——一个具备32B参数的AI模型，现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现，同时其设计考虑到了内存的局限性，能够适配更为普遍的中等内存硬件系统。这意味着，即便是在资源有...

2024-04-05 talkingdev

SableDb是一款新兴的键值对NoSQL数据库，其设计目标是相较于Redis进一步降低内存成本并提升数据存储容量。该数据库采用了高效的数据结构和算法，优化了内存使用效率，使得在处理大量数据时仍能保持较低的资源消耗。S...

2024-03-28 talkingdev

在RAG（检索-生成）管道中，对嵌入向量进行搜索是至关重要的一环。通过将fp32数字替换为单个0或1，并使用KNN聚类器和重排序器，可以在缩小内存需求30倍的同时，保持性能不受影响。这一技术突破为处理大规模数据集提...

2024-02-21 talkingdev

KV缓存的量化是Transformer架构的一个技术细节，它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。