大语言模型的相关内容 - 漫话开发者

2025-05-22 talkingdev

[论文推荐]慢思考提升大语言模型的置信度校准能力

最新研究表明，通过延长思维链推理过程（Extended chain-of-thought reasoning），大型语言模型（LLMs）能够显著提升其置信度校准能力。这项发表在arXiv预印本平台的研究（编号2505.14489v1）揭示了传统即时响应模式...

2025-05-22 talkingdev

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-22 talkingdev

最新研究表明，大型语言模型在自然语言处理方面展现出强大的视觉缺陷推理能力，但在将这些高层次洞察转化为精确的像素级操作时仍面临挑战。这些模型在受限于明确、界定清晰的维度时表现优异，但当需要平衡抽象美学判...

2025-05-21 talkingdev

近日，一篇技术文章指出，当前在处理大语言模型（LLM）的工具调用（MCP工具）时，常见的做法是将工具的输出结果重新输入到LLM中，并询问LLM下一步操作。然而，这种做法在扩展性上存在明显不足。相比之下，采用代码编...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-21 talkingdev

谷歌高被引研究员Kevin Murphy近期更新了其200页的强化学习权威教材，系统性地覆盖了从传统方法到直接偏好优化（DPO）、广义策略优化（GPRO）以及推理技术等最前沿进展。该教材作为领域内的标杆性文献，不仅整合了经...

2025-05-20 talkingdev

最新发表在arXiv的研究论文指出，基于大语言模型(LLM)的安全评估系统存在显著脆弱性。研究表明，这类系统的评估可靠性极易受到提示词敏感性和对抗性攻击的影响。该发现对当前快速发展的AI安全评估领域具有重要警示意...

2025-05-20 talkingdev

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案，该方案采用SFT（监督微调）结合GRPO（梯度反向传播优化）的混合训练框架，其技术路线受到DeepSeek R1架构启发，并针对AWS云平台进行了专项优化...