Transformer的相关内容 - 漫话开发者

2024-01-10 talkingdev

论文：去噪视觉Transformer

视觉Transformer (ViT)已经成为视觉领域的主要研究方向，然而在它们的嵌入中，仍然有时会出现网格状的伪影。这使得社区在将其应用于下游任务时持怀疑态度。本研究提出了一种更新位置嵌入的方法，消除了这一问题，并...

2024-01-09 talkingdev

Transformer是自然语言处理中非常重要的模型，但对于初学者来说可能有些困难。然而，这篇文章提供了一个非常好的介绍，对于具有基本数学和Python技能的人来说非常易于理解。作者详细解释了Transformer的工作原理，并...

2024-01-08 talkingdev

MUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型，并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长，但它们显示出了很...

2024-01-03 talkingdev

BERT是一种仅有编码器的Transformer。这意味着它通常用于以嵌入形式表示自然语言，而不是用于生成文本。重要的是，它是最早用于搜索的Transformer之一，因为它可以表示查询和要检索的信息。Mosaic团队集成了FlashAtt...

2023-12-20 talkingdev

Mamba的创建者（以及许多其他模型）发布了一篇很专业的博客文章，概述了基本的序列混合架构，相对于标准Transformer，可以获得相当大的速度提升。该团队的新模型使用了这种混合方法，并且获得了非常好的性能。这种新...

2023-12-19 talkingdev

Transformer模型虽然强大，但是由于其不稳定性，训练起来常常会很困难。其中一个主要的问题是注意力矩阵的熵崩溃。本文介绍了一种通过简单的重新参数化来防止熵崩溃的方法。

2023-12-18 talkingdev

SwitchHead是使AI模型更高效的突破。它减少了Transformer的内存和计算需求，同时不会降低性能。SwitchHead是一种新颖的神经网络结构，可以在不丢失性能的情况下，将一个大型Transformer模型拆分为多个小型Transforme...

2023-12-15 talkingdev

微软的最新模型现已在HuggingFace上提供研究用途。Phi-2是一种基于Transformers的语言生成模型，它被训练用于生成各种文本，包括问答、对话和自然语言生成。该模型采用的是自回归模式，即在生成下一个单词或字符时，...