Transformer模型的相关内容 - 漫话开发者

2023-07-03 talkingdev

百万上下文token助力DNA任务

最近，状态空间模型引起了广泛关注。它们作为一种潜在有用的模型替代方案而出现，通过避开Transformer的一些挑战性方面，同时保持性能。在这项工作中，Hyena模型被应用于DNA序列建模，并在23个任务中取得了改进。

2023-06-30 talkingdev

Audiocraft推出MusicGen，这是一种简化和增强音乐生成的模型。这种单阶段的自回归Transformer模型不需要像之前的方法那样进行自监督语义表示，通过并行预测所有码本，它更高效地生成音乐，从而每秒音频的步骤更少。

2023-06-08 talkingdev

## 新闻内容： GitHub开源社区发布了一款名为CodeTF的Python Transformer库，致力于提高代码智能化的水平，为使用者提供了一个训练与推理的平台，可以轻松实现代码智能化任务，如代码摘要、翻译、生成等。 CodeTF...

2023-06-05 talkingdev

近日，谷歌通过基因搜索算法和海量TPU的使用，开发出了一种新的模型——Brainformer，其收敛速度比传统的Transformer模型快5倍，推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧，充分发挥了TPU的强大性能...

2023-05-16 talkingdev

据报道，研究人员近日发表了一篇论文，提出了一种名为EfficientViT的高速Vision Transformer模型。该模型在保证处理速度的同时，能够提高模型的准确度。通过重新设计Transformer模型的某些部分，他们能够显著降低与...

2023-04-20 talkingdev

本文介绍了Transformer模型训练中需要用到的数学知识，其中包括以下三个核心点： - 计算需要多少个GPU进行训练； - 计算模型的宽度应该是多少； - 不管模型大小，都需要至少训练200B个标记。除此之外，还有其他有...

2023-04-15 talkingdev

新闻内容： Transformer模型是一种深度学习模型，近年来在自然语言处理任务中表现出色。那么，它究竟是什么，又是怎么工作的呢？以下是本文的重点： - Transformer模型是什么 - Transformer模型的历史和发展...