Transformer的相关内容 - 漫话开发者

2023-12-13 talkingdev

HuggingFace 发布 Transformers 4.36.0 版本，新增 Mistral 模型和 AMD 支持

近日，HuggingFace 发布了最新版本的 Transformers 4.36.0。此次更新新增了 Mistral 模型和 AMD 支持等多项功能。同时，safetensors 已成为默认设置。HuggingFace 的这次更新将为 AI 模型的开发和训练提供更加便利的...

2023-12-12 talkingdev

近来，Transformer模型在AI领域占据统治地位。它们是强大的序列学习器，但也存在一些缺点。这项新工作基于状态空间模型，展示了新的架构可以带来巨大的好处，如增加上下文长度。

2023-12-11 talkingdev

Mamba是一种非Transformer的模型，其性能惊人。它经过了SFT的聊天调优，并且似乎具有比同等大小的Transformer更好的开箱即用的检索能力。

2023-12-07 talkingdev

该项目探索了视觉转换器在基于扩散的生成学习中的有效性，揭示了Diffusion Vision Transformers（DiffiT）。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像，具有非常好的...

2023-12-06 talkingdev

该论文借鉴了LSTM的思想，并训练了一个拥有3B参数的模型，其性能优于更大的7B参数Transformer模型。这项工作有望在序列建模领域取得新的进展，尤其是在性能和可伸缩性方面。

2023-12-05 talkingdev

近日，美国政府与英特尔公司合作启动了一个名为ScienceGPT的训练计划。该计划旨在训练一个万亿参数的GPT模型，以便提高自然语言处理的效率和精度。GPT（Generative Pre-trained Transformer）是一种基于Transformer...

2023-11-14 talkingdev

AI 小镇是一个令人惊叹的实验，在这里，数百个代理在语言模型的提示状态下过着日常生活。 RWKV 模型是一种线性语言模型，需要比标准 Transformer 更少的资源。此存储库使用这个更便宜的模型在您的本地计算机上运行 A...

2023-11-09 talkingdev

PixArt是一种新的文本到图像模型，它使用T5文本编码、交叉注意力和扩散变压器，以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练快90%。PixArt模型的训练...