Transformer模型的相关内容 - 漫话开发者

2025-06-27 talkingdev

[论文推荐]Meta FAIR团队突破：无需归一化层的Transformer模型通过Dynamic Tanh实现同等性能

Meta旗下FAIR研究团队在arXiv最新论文中提出重大架构革新，通过名为Dynamic Tanh（DyT）的逐元素操作替代传统归一化层，使Transformer模型在保持性能的同时摆脱了对归一化层的依赖。这种S型曲线模拟技术能够自然复现...

2025-05-23 talkingdev

近期大型推理模型的显著成果常被归功于思维链（CoT）技术，尤其是通过从基础大语言模型（LLM）中采样CoT进行训练以发现新推理模式的过程。然而，一项最新研究对这种解释提出了质疑。该研究通过系统性地调查中间标记...

2025-05-06 talkingdev

最新研究通过理论与实证分析揭示了单层Transformer模型在完成奇偶校验等复杂任务时的学习机制。研究表明，这类极简架构不仅能捕捉输入数据的配对关系，其训练动态还展现出与深层模型截然不同的特征。尤为值得注意的...

2025-04-07 talkingdev

近期，GitHub上开源了一个名为CrystalFormer的Transformer模型，该模型利用空间群对称性生成晶体结构，显著提高了晶体生成的效率和数据友好性。晶体结构在材料科学、化学和物理学等领域具有重要应用，传统方法通常依...

2025-03-28 talkingdev

近期，一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs)，实现了高效的多模态预训练。与传统Transformer模型相比，Mixture-of-Mamba在文本、图像...

2025-03-17 talkingdev

Transformer模型在自然语言处理和其他领域取得了显著的成功，而其核心之一是层归一化（Layer Normalization）。然而，最新的研究提出了一种替代方案：通过精心设计的tanh函数，可以在不依赖层归一化的情况下保持模型...

2024-06-26 talkingdev

GeoMFormer是一种全新的基于Transformer的模型，旨在通过学习不变量和等变量特征来改进分子模型。这种模型的设计，彻底改变了传统分子建模的方法，为化学和生物科学的研究者提供了新的视角和工具。GeoMFormer的出现...

2024-06-20 talkingdev

Logit Lens方法已经得到了增强，该方法通过分解logit输出，帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流，注意力层和MLP层，揭示了这些部分如何影响预测，并为gemma-2b模型执行的诸如...