开源AI的相关内容 - 漫话开发者

2025-06-27 talkingdev

谷歌发布多模态开源模型Gemma 3n：支持文本、图像和音频输入

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n，该模型采用多模态设计，专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入，展现了强大的跨模态处理能力。为推广该模型，谷歌与AMD、Axolotl、Docker...

2025-06-24 talkingdev

近日，SGLang宣布成功集成Transformers后端技术，这一重大进展使开发者能够将Hugging Face的模型API与SGLang的高吞吐量、低延迟引擎相结合。该集成不仅显著提升了模型推理效率，还为自然语言处理（NLP）领域的实时应...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-17 talkingdev

近日，一个名为Models.dev的开源网站正式上线，该平台致力于构建一个开放的AI模型数据库，详细收录各类人工智能模型的规格参数、定价信息以及功能特性。这一举措为开发者、研究人员和企业提供了便捷的模型检索和比较...

2025-06-12 talkingdev

近日，GitHub上开源了一项名为Weak-to-Strong Decoding（WSD）的创新技术，该方法通过让小型的对齐模型（aligned model）生成回答的开头部分，再由大型基础模型（base model）继续完成后续内容，从而在保持模型性能...

2025-05-29 talkingdev

人工智能研究公司DeepSeek近日宣布对其R1推理模型进行重大升级，并将最新版本发布于Hugging Face平台。这一进展标志着自然语言处理领域的重要突破，R1模型以其卓越的推理能力和高效的参数利用在业界备受关注。此次更...

2025-05-19 talkingdev

OpenAlpha_Evolve是基于DeepMind最新发布的AlphaEvolve技术论文启发而开发的开源Python框架，旨在为研究者和开发者提供一个可自由访问的AI算法发现工具。AlphaEvolve作为DeepMind在自动化算法设计领域的重要突破，能...

2025-05-16 talkingdev

Nous Research近期推出的Psyche网络是一个基于Solana区块链的分布式训练系统，该系统允许拥有兼容硬件的用户自愿贡献其GPU资源用于AI模型训练。该项目的首个计划"Consilience"旨在利用20万亿个token训练一个拥有400...