Transformer的相关内容 - 漫话开发者

2026-06-06 talkingdev

ICLR 2026最佳论文揭晓：Transformer模型天生具备简洁性

在人工智能顶级会议ICLR 2026上，一篇题为《Transformer are inherently succinct》的论文被评选为三篇杰出论文之一。该研究从理论层面深入论证了Transformer架构在本质上具有简洁性（succinctness），即模型能够在...

2026-06-03 talkingdev

在处理长文本或长时间序列时，标准Transformer模型的内存占用和计算复杂度会随序列长度平方级增长，并面临信息稀释问题。GitHub上最新开源的“Wall Attention”项目提出了一种极具创新性的注意力变体机制：通过引入带...

2026-06-02 talkingdev

英伟达今日正式发布Cosmos 3，这是一款面向物理AI的开源世界基础模型，标志着AI在理解与生成物理世界能力上的重大突破。Cosmos 3采用了创新的混合专家变换器（Mixture-of-Transformers）架构，将视觉推理、世界生成...

2026-05-06 talkingdev

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日，初创公司Subquadratic宣布推出一款全新的AI模型，其上下文窗口达到了惊人的1200万token（约合1200万个单词或代码标记），远超过当前主流模...

2026-05-04 talkingdev

在大型语言模型（LLM）和视觉语言模型（VLM）部署中，模型量化是降低计算和存储成本的关键技术。然而，传统量化方法往往需要在模型大小和推理精度之间做出艰难取舍，尤其是在超低位宽（如2-bit、3-bit）下，精度损失...

2026-04-30 talkingdev

PyTorch官方博客近日发布了一项名为AutoSP的创新技术，该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码，用于长上下文大语言模型（LLM）的训练。AutoSP已与微软的DeepSpeed框架深度集成，使得开发者...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-04-21 talkingdev

近日，GitHub上一个名为‘soulplayer-c64’的开源项目引发了技术社区的广泛关注。该项目成功地在仅有1MHz主频、内存极其有限的经典计算机Commodore 64上，部署并运行了一个拥有25,000个参数的真实Transformer神经网络...