量化技术的相关内容 - 漫话开发者

2025-06-30 talkingdev

PyTorch与vLLM深化集成，提升大语言模型推理效率

PyTorch与vLLM近日宣布深化技术整合，新增支持量化、注意力机制定制及异构硬件加速等关键功能。这一合作标志着两大开源框架在优化大语言模型（LLM）推理性能方面取得重要突破：量化技术可降低模型计算资源消耗达4-8...

2025-06-16 talkingdev

PyTorch官方博客最新发布的ParetoQ训练算法在低比特量化领域取得重大突破。该技术首次实现了二元（1-bit）、三元（1.58-bit）和2至4位量化的统一框架，并在所有量化级别上均达到当前最优性能。这一突破性进展尤其适...

2025-05-16 talkingdev

近日，开发者dipampaul17在GitHub上发布了KVSplit项目，该项目通过差异化精度的KV缓存量化技术，在苹果芯片（M1/M2/M3/M4）上实现了更长上下文的LLM推理。研究发现，LLM推理中的KV缓存中，键（Keys）和值（Values）...

2025-05-07 talkingdev

近期，Hugging Face发布了一项名为AutoRound的后训练量化技术，该技术能够在保持模型性能和效率的同时，显著提升低比特量化模型的精度。这一突破性进展为边缘计算和移动端设备部署轻量级AI模型提供了新的可能性，解...

2025-04-16 talkingdev

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具，该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器，模型推理速度可提升数倍，特别适...

2025-04-15 talkingdev

近期发表于arXiv的研究ThinkLite-VL通过创新性地应用蒙特卡洛树搜索（MCTS）技术量化样本难度，在视觉语言模型（VLM）领域取得突破性进展。该方法仅需11,000个训练样本即可显著提升模型推理能力，且无需依赖知识蒸馏...

2025-04-07 talkingdev

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案，其核心突破在于将混合专家（MoE）层压缩至惊人的1.58bit，同时通过动态量化技术保持其他模块在4-6bit精度。研究发现，模型Tokenizer的特殊结构为量化带来...

2025-03-04 talkingdev

近日，一项名为UniTok的创新技术引起了广泛关注。UniTok是一种离散视觉Tokenizer，旨在解决视觉生成与理解之间的表征差距。通过引入多码本量化技术，UniTok显著提升了token的表达能力，使其在生成任务中能够编码详细...