语言模型的相关内容 - 漫话开发者

2025-05-23 talkingdev

Anthropic发布Claude Opus 4和Claude Sonnet 4，树立AI编码与推理新标杆

人工智能研究公司Anthropic正式推出Claude Opus 4和Claude Sonnet 4两大模型，在编码能力、高级推理及AI智能体领域设立全新行业标准。此次升级的核心突破在于模型针对复杂长时任务的设计优化，可持续运行数小时完成...

2025-05-22 talkingdev

最新研究表明，通过延长思维链推理过程（Extended chain-of-thought reasoning），大型语言模型（LLMs）能够显著提升其置信度校准能力。这项发表在arXiv预印本平台的研究（编号2505.14489v1）揭示了传统即时响应模式...

2025-05-22 talkingdev

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-22 talkingdev

最新研究表明，大型语言模型在自然语言处理方面展现出强大的视觉缺陷推理能力，但在将这些高层次洞察转化为精确的像素级操作时仍面临挑战。这些模型在受限于明确、界定清晰的维度时表现优异，但当需要平衡抽象美学判...

2025-05-21 talkingdev

近日，一篇技术文章指出，当前在处理大语言模型（LLM）的工具调用（MCP工具）时，常见的做法是将工具的输出结果重新输入到LLM中，并询问LLM下一步操作。然而，这种做法在扩展性上存在明显不足。相比之下，采用代码编...

2025-05-21 talkingdev

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-21 talkingdev

谷歌高被引研究员Kevin Murphy近期更新了其200页的强化学习权威教材，系统性地覆盖了从传统方法到直接偏好优化（DPO）、广义策略优化（GPRO）以及推理技术等最前沿进展。该教材作为领域内的标杆性文献，不仅整合了经...