大语言模型的相关内容 - 漫话开发者

2025-06-20 talkingdev

语言模型推理经济学：为何当前扩展方法遭遇瓶颈

首份关于大语言模型（LLM）服务经济学的综合模型揭示，随着AI公司竞相部署高token消耗的推理模型和智能体，当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现，网络延迟而非带宽成为主要瓶颈，阻碍了公司通过简单...

2025-06-19 talkingdev

近日，一篇关于将大语言模型（LLMs）编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计，将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核，显著减少了内核启动...

2025-06-19 talkingdev

Sakana AI研究团队开发出一项突破性技术——Text-to-LoRa（T2L）系统，该系统仅需文本描述即可即时定制大型语言模型，无需传统方法所需的训练数据或耗时微调过程。该技术的核心创新在于将数百个LoRA适配器（一种高效轻...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-18 talkingdev

谷歌近日宣布其人工智能模型Gemini 2.5 Pro和Flash版本已全面开放使用，同时推出预览版Flash-Lite。此次更新最引人注目的是引入了可控的“思考预算”机制，该技术通过动态分配计算资源，在保证推理精度的同时为开发者...

2025-06-17 talkingdev

Groq的低延迟硬件技术现已正式成为Hugging Face Hub及SDK的可选推理服务提供商，这一合作标志着AI基础设施领域的重大突破。通过集成Groq的专用处理器架构，开发者能够以服务器无感知（serverless）方式极速调用Llama...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

TreeRL是一种创新的语言模型训练方法，通过结合on-policy树搜索和中间监督机制，实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文，相比传统的ChainRL方法，TreeRL在数学推理和代码生成等复杂任务上...