预训练的相关内容 - 漫话开发者

2026-07-14 talkingdev

DeepMind推出GenCeption：视频生成预训练变身通用视觉模型，多任务六合一实测SOTA

DeepMind提出了GenCeption，将预训练的视频生成模型重新设计为一种可通过文本指令控制的统一视觉系统，引发学界关注。该模型基于前馈、非自回归的生成式架构，不需要针对下游任务进行微调即可同时处理深度估计、表面...

2026-07-13 talkingdev

一项新研究探索了利用稀疏技术高效训练大语言模型的方法，旨在显著减少算力开销的同时保持模型性能。该方案通过引入结构化稀疏与动态剪枝策略，在训练前期识别并冻结低重要性参数，使有效参数量呈指数级下降，从而降...

2026-06-26 talkingdev

DeepReinforce近日开源了其新一代编程模型家族Ornith-1.0，这一系列模型的最大亮点在于具备自我编写强化学习（RL）训练框架的能力，标志着AI模型在自我优化和自动化研究方向上迈出重要一步。Ornith-1.0家族基于预训...

2026-06-23 talkingdev

一篇来自LessWrong社区的技术文章深入探讨了2023年至2031年间大型语言模型（LLM）规模扩展的物理极限。文章指出，虽然预训练算力是决定模型规模的关键，但一个常被忽视的硬性约束在于推理时的令牌生成速度。具体来说...

2026-06-02 talkingdev

英伟达今日正式发布Cosmos 3，这是一款面向物理AI的开源世界基础模型，标志着AI在理解与生成物理世界能力上的重大突破。Cosmos 3采用了创新的混合专家变换器（Mixture-of-Transformers）架构，将视觉推理、世界生成...

2026-05-19 talkingdev

一项最新研究揭示了语言模型在预训练过程中的一个惊人现象：它们并非平稳地提升能力，而是在“模仿”和“智能行为”之间突然切换，研究人员将其称为“模式跳跃”。这种非连续性的行为转变无法通过标准的优化技术（如调整学...

2026-05-19 talkingdev

近日，一款名为HRM-Text的新型文本生成模型在GitHub上开源，引发了AI社区的广泛关注。该模型基于HRM架构，参数规模为10亿（1B），但其最大的亮点在于惊人的训练效率。据项目介绍，HRM-Text的训练所需的计算资源和数...

2026-05-19 talkingdev

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示，该模型的政治审查并非根植于其预训练阶段获取的事实性知识，而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现，模型本身并未“...