推理优化的相关内容 - 漫话开发者

2025-05-16 talkingdev

KVSplit开源-苹果上运行更长上下文的LLM，内存减少59%

近日，开发者dipampaul17在GitHub上发布了KVSplit项目，该项目通过差异化精度的KV缓存量化技术，在苹果芯片（M1/M2/M3/M4）上实现了更长上下文的LLM推理。研究发现，LLM推理中的KV缓存中，键（Keys）和值（Values）...

2025-04-21 talkingdev

一项突破性研究提出通过预计算上下文相关量来降低大型语言模型(LLM)推理成本的新方法。该技术利用模型空闲时间预先处理可能用到的上下文信息，在用户查询到来时能直接调用预计算结果。实验数据显示，这种方法可节省...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-03-12 talkingdev

Reka公司近日开源了其最新推出的Reka Flash 3模型，这是一款拥有210亿参数的多功能模型，专门针对推理、聊天、编码和指令遵循等任务进行了优化。该模型在性能上与专有模型不相上下，并配备了32k的上下文长度，使其非...

2025-02-17 talkingdev

近日，CodeI/O技术通过将代码转换为输入输出预测格式，显著提升了大语言模型（LLM）的推理能力。该方法通过教授通用推理原则，而非依赖代码语法，从而在多种推理任务中实现了性能优化。此外，通过多轮修订进一步验证...