Transformer模型的相关内容 - 漫话开发者

2024-01-09 talkingdev

深入浅出学习Transformer

Transformer是自然语言处理中非常重要的模型，但对于初学者来说可能有些困难。然而，这篇文章提供了一个非常好的介绍，对于具有基本数学和Python技能的人来说非常易于理解。作者详细解释了Transformer的工作原理，并...

2023-12-19 talkingdev

Transformer模型虽然强大，但是由于其不稳定性，训练起来常常会很困难。其中一个主要的问题是注意力矩阵的熵崩溃。本文介绍了一种通过简单的重新参数化来防止熵崩溃的方法。

2023-12-18 talkingdev

SwitchHead是使AI模型更高效的突破。它减少了Transformer的内存和计算需求，同时不会降低性能。SwitchHead是一种新颖的神经网络结构，可以在不丢失性能的情况下，将一个大型Transformer模型拆分为多个小型Transforme...

2023-12-12 talkingdev

近来，Transformer模型在AI领域占据统治地位。它们是强大的序列学习器，但也存在一些缺点。这项新工作基于状态空间模型，展示了新的架构可以带来巨大的好处，如增加上下文长度。

2023-12-06 talkingdev

该论文借鉴了LSTM的思想，并训练了一个拥有3B参数的模型，其性能优于更大的7B参数Transformer模型。这项工作有望在序列建模领域取得新的进展，尤其是在性能和可伸缩性方面。

2023-10-19 talkingdev

这项研究介绍了Zipformer，一种用于自动语音识别（ASR）的改进Transformer模型，它更快、占用更少内存，而且比广泛使用的Conformer效果更好。Zipformer是一种新型的语音识别模型，它使用了一种全新的架构，能够更快...

2023-08-17 talkingdev

本文将深入探讨热门的《transformer数学101》文章，以及基于transformer架构的高性能分布式训练。变形金刚模型已经在深度学习领域广泛应用，其强大的处理能力和优异的性能表现赢得了业界的一致好评。然而，对于这种...

2023-07-31 talkingdev

transformer模型帮助机器人看，帮助机器人计划，甚至帮助机器人控制？看起来，变形金刚正在继续吞噬世界，这是谷歌在机器人技术方面的最新尝试，利用强大的预训练模型改善机器人的各种性能。这一新的尝试使得机器人...