计算优化的相关内容 - 漫话开发者

2025-06-11 talkingdev

S3mini-轻量级S3兼容客户端，无依赖支持边缘计算

GitHub上最新开源项目S3mini引起了开发者社区的广泛关注。该项目是一个轻量级的S3兼容客户端，采用TypeScript编写，完全无依赖，专为边缘计算场景优化。S3mini支持与Cloudflare、MinIO、Backblaze、DigitalOcean和Ga...

2025-06-06 talkingdev

Tokasaurus是一款针对高吞吐量工作负载优化的大型语言模型（LLM）推理引擎，由斯坦福大学Scaling Intelligence团队研发。该引擎通过创新的架构设计和算法优化，显著提升了LLM在批量处理任务时的计算效率，为需要大规...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-04-16 talkingdev

OpenAI近日将其内部研发的高性能计算核心——FP4（4-bit浮点）与MoE（混合专家）系统的关键算子通过GitHub PR开源至Triton语言项目。这一举动标志着AI基础设施领域的重要进展：FP4作为新兴的低精度计算格式可显著提升...

2025-04-01 talkingdev

GitHub最新开源项目Optimal Stepsize for Diffusion Sampling (OSS)通过动态规划算法优化了扩散模型的采样步长调度方案。这项突破性技术能在保持生成质量近乎无损的情况下，将采样速度提升10倍。该研究解决了扩散模...

2025-01-28 talkingdev

本文综述了基础模型的参数高效微调技术，深入探讨了在保持多样化任务性能的同时，如何最小化计算成本的方法。随着基础模型（如LLM）的广泛应用，参数高效微调技术（如LoRA、RAG等）成为研究热点。这些技术通过减少需...

2024-04-05 talkingdev

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...

2023-09-05 talkingdev

小型羊驼（Tiny Llama）项目旨在为3T代币训练出一个参数为11亿的羊驼2（Llama2）模型。根据扩展规律，这对于计算优化来说无疑是严重的过度训练，但它对于部署优化带来了显著的收益。此次的模型训练打破了传统的优化...