MoE的相关内容 - 漫话开发者

2026-07-22 talkingdev

Poolside 发布 Laguna S 2.1：1180 亿参数 MoE 模型，专攻智能体编程，上下文窗口突破 100 万 token

专攻 AI 编码的初创公司 Poolside 在 Hugging Face 上正式发布了其最新大型语言模型 Laguna S 2.1。该模型采用混合专家架构，总参数量高达 1180 亿，但每个 token 仅激活其中 80 亿个参数，在保持强大能力的同时实现...

2026-05-20 talkingdev

艾伦人工智能研究所（Ai2）最新发布的OlmoEarth v1.1模型家族，在遥感智能分析领域实现了显著的成本突破。该系列模型通过创新的序列长度优化技术，将处理遥感数据的计算成本最高降低至原来的三分之一（即3倍效率提升...

2026-04-23 talkingdev

Qwen团队今日发布了其最新的开源权重模型Qwen3.6-27B，在AI社区引发广泛关注。该模型虽然仅有27B参数（稠密架构），却在智能体编码任务中实现了旗舰级性能。据Qwen团队宣称，Qwen3.6-27B在全部主流编码基准测试中均...

2026-04-03 talkingdev

在ChatGPT于2022年底掀起生成式AI浪潮后，开源大模型的接力棒在多家公司间传递。近日，美国AI初创公司Arcee AI正式发布了其重量级开源模型——Trinity-Large-Thinking。该模型采用混合专家架构，参数量高达3990亿，是...

2026-02-04 talkingdev

阿里巴巴近日推出了专为编程智能体（Coding Agent）优化的开源模型Qwen3-Coder-Next。该模型基于创新的混合专家（Mixture of Experts， MoE）架构构建，旨在显著提升智能体在代码生成与执行环境交互方面的能力。其核...

2025-12-04 talkingdev

英伟达在混合专家模型（Mixture-of-Experts，MoE）的扩展性能方面取得了重大突破。根据官方公布的数据，其最新的GB200 Blackwell NVL72服务器配置，在MoE AI模型上的性能表现相比上一代的Hopper HGX200架构实现了高...

2025-12-04 talkingdev

英伟达于近日公布了其最新一代GB200 Blackwell AI服务器的性能基准测试数据，结果显示，相较于前代H100/H200平台，该服务器在运行特定类型的混合专家模型时，性能提升高达10倍。此次测试重点针对中国AI公司月之暗面...

2025-12-03 talkingdev

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型，该系列包含两大技术路线：一是三款不同规模的密集模型（参数规模分别为140亿、80亿和30亿），二是备受瞩目的Mistral Large 3稀疏混...