漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-02 talkingdev

英伟达发布Cosmos 3:物理AI开源基础模型,融合视觉推理与多模态生成

英伟达今日正式发布Cosmos 3,这是一款面向物理AI的开源世界基础模型,标志着AI在理解与生成物理世界能力上的重大突破。Cosmos 3采用了创新的混合专家变换器(Mixture-of-Transformers)架构,将视觉推理、世界生成...

Read More
2026-05-19 talkingdev

开源|大模型预训练的“模式跳跃”:语言模型如何从鹦鹉学舌到展现智能?

一项最新研究揭示了语言模型在预训练过程中的一个惊人现象:它们并非平稳地提升能力,而是在“模仿”和“智能行为”之间突然切换,研究人员将其称为“模式跳跃”。这种非连续性的行为转变无法通过标准的优化技术(如调整学...

Read More
2026-05-19 talkingdev

开源|HRM-Text:1B参数文本生成模型,训练成本仅为传统模型的几百分之一

近日,一款名为HRM-Text的新型文本生成模型在GitHub上开源,引发了AI社区的广泛关注。该模型基于HRM架构,参数规模为10亿(1B),但其最大的亮点在于惊人的训练效率。据项目介绍,HRM-Text的训练所需的计算资源和数...

Read More
2026-05-19 talkingdev

揭密大模型内部的政治审查机制:Qwen3.5-9B权重中的可读“审查开关”

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示,该模型的政治审查并非根植于其预训练阶段获取的事实性知识,而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现,模型本身并未“...

Read More
2026-03-31 talkingdev

开源|谷歌发布TimesFM时间序列基础模型,革新时序预测范式

谷歌研究团队近日在GitHub上开源了TimesFM(Time Series Foundation Model),这是一个预训练的时间序列基础模型,专为时间序列预测任务而设计。该模型采用了一种创新的“分块解码器”风格注意力架构,并在一个大规模...

Read More
2026-03-27 talkingdev

开源|ATLAS项目引热议:500美元GPU在编码基准测试中超越Claude Sonnet

近日,一个名为ATLAS(Adaptive Test-time Learning and Autonomous Specialization)的开源项目在开发者社区引发广泛关注。根据Hacker News上的讨论,该项目展示了一项引人瞩目的性能表现:在特定的编码基准测试中...

Read More
2026-02-25 talkingdev

开源|Moonshine开源语音识别模型:边缘设备上的STT精度超越WhisperLargev3

一家名为Moonshine AI的小型初创公司(团队仅六人,月GPU预算低于10万美元)近日在GitHub上开源了其自动语音识别(ASR)项目Moonshine。该项目针对边缘设备优化,提供了快速且高精度的语音转文本(STT)模型。据开发...

Read More
2026-02-04 talkingdev

开源|GLM-OCR:集成CogViT与GLM-0.5B的多模态文档理解模型发布

近日,由zai-org团队在Hugging Face平台开源了GLM-OCR模型,这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构:首先,它采用了在大规模图文数据上预训练的CogViT视觉编码...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page