大语言模型的相关内容 - 漫话开发者

2025-09-30 talkingdev

开源|Anthropic发布Claude Code 2.0：专为开发者打造的AI编程助手

人工智能公司Anthropic近日在npm平台正式发布了Claude Code 2.0软件包，标志着AI辅助编程工具进入新的发展阶段。该工具基于Anthropic领先的大语言模型技术，专门针对代码生成、调试和优化等开发场景进行深度优化。在...

2025-09-29 talkingdev

深度求索（DeepSeek）最新推出的DeepSeek-V3.1 Terminus模型标志着AI智能体技术迈入新阶段。该版本在工具调用（Tool Use）能力上实现重大突破，通过优化推理架构和指令遵循机制，显著提升了复杂任务执行的准确性和效...

2025-09-25 talkingdev

Meta公司最新推出了名为CWM（Code World Model）的开源大语言模型，该模型参数量达320亿，采用仅解码器架构。其创新之处在于训练数据融合了代码执行轨迹与复杂推理任务，旨在构建能够理解代码动态执行过程的‘世界模...

2025-09-24 talkingdev

在大型语言模型的技术架构中，采样与结构化输出是决定模型生成质量与可控性的两大核心技术。采样指模型根据概率分布从词汇表中选择下一个标记的过程，直接影响了文本生成的多样性和创造性。而结构化输出技术则赋予模...

2025-09-21 talkingdev

根据《福布斯》杂志2025年10/11月刊的深度报道，由前谷歌、Facebook和Twitter资深技术专家Edwin Chen（陈德伟）创立的Surge AI在2024年实现12亿美元营收并实现盈利，现正以300亿美元估值进行10亿美元规模的融资。Sur...

2025-09-16 talkingdev

Meta公司内部团队与vLLM、PyTorch展开深度技术合作，成功推出预填充/解码分离技术（prefill/decode disaggregation），这项突破性技术显著提升了大规模语言模型在生产环境中的推理性能。通过将推理过程分解为预填充...

2025-09-16 talkingdev

RustGPT是一项具有里程碑意义的开源项目，它首次实现了完全基于Rust编程语言的大型语言模型（LLM）开发，不依赖任何外部机器学习框架。该项目采用纯Rust代码构建，仅使用ndarray库进行矩阵运算，彻底摆脱了对PyTorch...

2025-09-16 talkingdev

这项技术研究提出了一种革命性的推荐系统架构，通过将语义化标识符（Semantic IDs）嵌入大型语言模型，替代传统的随机哈希ID机制。该方案使LLM能够同时理解自然语言和项目语义标识，实现了无需外部检索工具的直接对...