计算效率的相关内容 - 漫话开发者

2025-06-20 talkingdev

将大语言模型编译为MegaKernel：低延迟推理的新路径

近日，一篇关于将大语言模型（LLMs）编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计，将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核，显著减少了内核启动...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-09 talkingdev

近日，一项名为PTSD（Progressive Tempering Sampler with Diffusion）的新型采样技术在预印本平台arXiv上发布，该技术通过序列化温度调节训练扩散模型，显著提升了从未归一化概率密度中采样的效率。传统方法在复杂...

2025-06-06 talkingdev

Tokasaurus是一款针对高吞吐量工作负载优化的大型语言模型（LLM）推理引擎，由斯坦福大学Scaling Intelligence团队研发。该引擎通过创新的架构设计和算法优化，显著提升了LLM在批量处理任务时的计算效率，为需要大规...

2025-05-23 talkingdev

人工智能研究公司Anthropic正式推出Claude Opus 4和Claude Sonnet 4两大模型，在编码能力、高级推理及AI智能体领域设立全新行业标准。此次升级的核心突破在于模型针对复杂长时任务的设计优化，可持续运行数小时完成...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-19 talkingdev

人工智能领域迎来重大技术突破，开源项目ParScale通过创新性地在大型语言模型（LLM）的训练和推理阶段同时应用并行计算技术，成功建立了第三种LLM扩展范式。这一技术突破解决了传统序列计算模式在超大规模模型应用中...

2025-05-07 talkingdev

近日，一项名为Chain of Draft的创新推理策略在arXiv预印本平台引发关注。该技术通过精简推理路径设计，在保持与经典Chain-of-Thought方法相当甚至更高准确率的前提下，显著降低了大型语言模型的token消耗量。实验数...