Transformer架构的相关内容 - 漫话开发者

2026-06-30 talkingdev

DiScoFormer：单一Transformer模型，跨分布同时估计密度与得分，性能碾压传统KDE

近日，AI2研究团队在Hugging Face博客上发布了DiScoFormer模型，这是一种基于Transformer架构的创新方法，能够在单次前向传播中同时完成数据的密度估计和得分函数估计，而无需针对新分布进行重新训练。与经典的核密...

2026-06-30 talkingdev

人工智能领域正经历一场深刻的架构变革，从封闭的垂直集成系统向由标准化接口（如Transformer架构和推理API）支撑的模块化生态系统演进。这种架构上的解构使得开源权重模型能够与封闭系统有效竞争，大幅降低成本，同...

2026-06-26 talkingdev

近日，Liquid AI宣布推出其最新基础模型LFM2.5-230M，这是一款参数规模仅为2.3亿的非Transformer架构模型。与当前主流的Transformer模型不同，LFM2.5-230M基于状态空间模型与液态神经网络连续时间公式构建。尽管体积...

2026-06-23 talkingdev

大型语言模型（LLM）的核心架构是Transformer，它通过引入自注意力机制，从根本上解决了传统循环神经网络（RNN）在处理长序列数据时面临的顺序计算瓶颈与长距离信息衰减问题。本文深入剖析了Transformer的各个关键组...

2026-06-06 talkingdev

在人工智能顶级会议ICLR 2026上，一篇题为《Transformer are inherently succinct》的论文被评选为三篇杰出论文之一。该研究从理论层面深入论证了Transformer架构在本质上具有简洁性（succinctness），即模型能够在...

2026-05-06 talkingdev

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日，初创公司Subquadratic宣布推出一款全新的AI模型，其上下文窗口达到了惊人的1200万token（约合1200万个单词或代码标记），远超过当前主流模...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-04-21 talkingdev

近日，GitHub上一个名为‘soulplayer-c64’的开源项目引发了技术社区的广泛关注。该项目成功地在仅有1MHz主频、内存极其有限的经典计算机Commodore 64上，部署并运行了一个拥有25,000个参数的真实Transformer神经网络...