Qwen的相关内容 - 漫话开发者

2025-05-20 talkingdev

[开源]基于AWS低成本微调Qwen2.5B模型实现推理能力突破

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案，该方案采用SFT（监督微调）结合GRPO（梯度反向传播优化）的混合训练框架，其技术路线受到DeepSeek R1架构启发，并针对AWS云平台进行了专项优化...

2025-05-19 talkingdev

人工智能领域迎来重大技术突破，开源项目ParScale通过创新性地在大型语言模型（LLM）的训练和推理阶段同时应用并行计算技术，成功建立了第三种LLM扩展范式。这一技术突破解决了传统序列计算模式在超大规模模型应用中...

2025-05-05 talkingdev

阿里巴巴近日正式推出Qwen 3系列人工智能模型，该系列模型采用混合专家架构（Mixture of Experts），具备先进的推理能力，并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言，训练数据规模高...

2025-04-25 talkingdev

来自arXiv的最新研究论文提出了一种名为DFloat11的动态长度浮点无损压缩框架，通过创新性地利用LLM权重中BFloat16格式的低熵特性，实现了30%的模型体积缩减，同时保持输出结果与原始模型的比特级一致性。该技术采用...

2025-04-02 talkingdev

Open Hands团队最新发布的32B参数代码模型（Open Hands LM-32B）在强化学习（RL）训练框架下，基于Qwen架构实现了突破性进展。该模型在代理编码任务（agentic coding tasks）中的表现已超越许多参数规模更大的竞品，...

2025-03-27 talkingdev

近日，Qwen发布了一款名为Qwen Omni 7B的多模态模型，该模型能够原生理解多种不同的模态数据，并以文本或语音的形式进行响应。这一技术的推出标志着人工智能在多模态处理领域迈出了重要一步。Qwen Omni 7B不仅能够处...

2025-03-26 talkingdev

近日，Qwen团队发布了一款名为Qwen 2.5 32B的视觉语言模型，该模型不仅具备强大的多模态处理能力，而且完全开源，能够在消费级硬件上高效运行。这一重大突破为AI领域的研究者和开发者提供了更加灵活和便捷的工具，尤...

2025-03-14 talkingdev

Audio Flamingo 2 是一个基于Qwen架构构建的最新音频理解模型，其独特之处在于几乎完全使用了合成数据进行训练。这一突破性进展不仅提升了模型在音频处理和理解任务中的表现，还展示了合成数据在AI训练中的巨大潜力...