Transformer模型的相关内容 - 漫话开发者

2026-07-16 talkingdev

Thinking Machines推出9750亿参数开源权重模型Inkling：混合专家架构，多模态推理可控

人工智能公司Thinking Machines正式发布了其首个开放权重模型Inkling。这是一个参数规模高达9750亿的混合专家（Mixture-of-Experts）Transformer模型，原生支持文本、图像和音频的多模态输入与理解。Inkling最引人注...

2026-06-30 talkingdev

近日，AI2研究团队在Hugging Face博客上发布了DiScoFormer模型，这是一种基于Transformer架构的创新方法，能够在单次前向传播中同时完成数据的密度估计和得分函数估计，而无需针对新分布进行重新训练。与经典的核密...

2026-06-26 talkingdev

近日，Liquid AI宣布推出其最新基础模型LFM2.5-230M，这是一款参数规模仅为2.3亿的非Transformer架构模型。与当前主流的Transformer模型不同，LFM2.5-230M基于状态空间模型与液态神经网络连续时间公式构建。尽管体积...

2026-06-06 talkingdev

在人工智能顶级会议ICLR 2026上，一篇题为《Transformer are inherently succinct》的论文被评选为三篇杰出论文之一。该研究从理论层面深入论证了Transformer架构在本质上具有简洁性（succinctness），即模型能够在...

2026-06-03 talkingdev

在处理长文本或长时间序列时，标准Transformer模型的内存占用和计算复杂度会随序列长度平方级增长，并面临信息稀释问题。GitHub上最新开源的“Wall Attention”项目提出了一种极具创新性的注意力变体机制：通过引入带...

2026-04-21 talkingdev

近日，GitHub上一个名为‘soulplayer-c64’的开源项目引发了技术社区的广泛关注。该项目成功地在仅有1MHz主频、内存极其有限的经典计算机Commodore 64上，部署并运行了一个拥有25,000个参数的真实Transformer神经网络...

2026-04-17 talkingdev

近日，开源社区推出一项旨在提升AI模型移植与代码审查效率的新工具——Skill and Test Harness。该工具专为将Transformer模型移植至苹果MLX框架（mlx-lm）而设计，通过自动化处理模型转换任务，显著降低了开发者的贡献...

2026-03-18 talkingdev

近日，GitHub上开源了一个名为MoDA的项目，它实现了一种创新的注意力机制——混合深度注意力。该机制的核心突破在于，允许注意力头同时访问当前层以及更早层的键值对。这一设计旨在解决随着模型深度增加，信息在传递过...