Transformer的相关内容 - 漫话开发者

2025-05-22 talkingdev

谷歌推出Gemini Diffusion：首个采用扩散模型替代Transformer的大语言模型

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-16 talkingdev

BLIP3-o作为一种新型的扩散Transformer架构，通过序列预训练方法实现了技术突破，并在多模态基准测试中取得了当前最优异的成绩。该研究不仅发布了完整的代码和权重文件，还附带了一个包含6万条指令的微调数据集，为...

2025-05-11 talkingdev

知名开发者Giles Thomas在其技术博客中发表了《从零构建大型语言模型》系列的第13篇文章，深入探讨了Transformer架构中注意力机制的核心原理。文章通过逆向工程视角指出，传统认知中复杂的注意力头（attention heads...

2025-05-08 talkingdev

近期arXiv平台发布的研究论文提出了一种名为IDInit的创新神经网络初始化技术，该方法通过在主层和子层结构中维持身份转换（identity transitions），有效解决了深度神经网络训练过程中的收敛稳定性难题。该技术突破...

2025-05-07 talkingdev

近日，GitHub上开源了一个名为DDT（Decoupled Diffusion Transformer）的项目，该项目实现了一种结合Transformer和扩散模型的新型架构。该架构采用Encoder-Decoder设计，其中Decoder部分由扩散模型构成。初步实验表...

2025-05-06 talkingdev

最新研究通过理论与实证分析揭示了单层Transformer模型在完成奇偶校验等复杂任务时的学习机制。研究表明，这类极简架构不仅能捕捉输入数据的配对关系，其训练动态还展现出与深层模型截然不同的特征。尤为值得注意的...

2025-05-02 talkingdev

艾伦人工智能研究所（Allen Institute for AI）近日发布了OLMo-2-1B语言模型，这是一款参数规模为1B的小型开源模型。该项目的突破性意义在于其完全透明的训练范式：研究团队不仅公开了模型权重，还完整披露了训练数...

2025-04-30 talkingdev

关系图Transformer（Relational Graph Transformers）作为一种前沿的人工智能技术，正在企业数据处理领域引发革命性变革。该技术通过图神经网络与Transformer架构的创新融合，能够有效解决企业级数据中的复杂关系建...