计算效率的相关内容 - 漫话开发者

2025-05-23 talkingdev

Anthropic发布Claude Opus 4和Claude Sonnet 4，树立AI编码与推理新标杆

人工智能研究公司Anthropic正式推出Claude Opus 4和Claude Sonnet 4两大模型，在编码能力、高级推理及AI智能体领域设立全新行业标准。此次升级的核心突破在于模型针对复杂长时任务的设计优化，可持续运行数小时完成...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-19 talkingdev

人工智能领域迎来重大技术突破，开源项目ParScale通过创新性地在大型语言模型（LLM）的训练和推理阶段同时应用并行计算技术，成功建立了第三种LLM扩展范式。这一技术突破解决了传统序列计算模式在超大规模模型应用中...

2025-05-07 talkingdev

近日，一项名为Chain of Draft的创新推理策略在arXiv预印本平台引发关注。该技术通过精简推理路径设计，在保持与经典Chain-of-Thought方法相当甚至更高准确率的前提下，显著降低了大型语言模型的token消耗量。实验数...

2025-05-04 talkingdev

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案，允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法，显著降低了分布式训练的硬件门槛，使中小型研究团队也能...

2025-05-01 talkingdev

最新研究表明，通过在大语言模型（LLM）的残差流中实施简单的表征控制向量干预，可显著调节其推理性能。这项发表于arXiv的突破性研究揭示了神经网络内部表征与逻辑推理能力的直接关联，为可解释AI领域提供了新工具。...

2025-04-29 talkingdev

IBM研究院近日推出开源大语言模型Bamba，该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型（SSM）的推理速度优势。作为IBM Granite系列模型的技术前导，Bamba通过注意力机制与状态空间方程的混合设...

2025-04-24 talkingdev

ANFM研究团队在arXiv最新发表的论文中，提出了一种基于过滤技术（filtration techniques）的革命性图生成方法。该技术通过优化传统图生成模型的拓扑结构处理流程，实现了比扩散模型快100倍的训练速度，同时保持了具...