变压器的相关内容 - 漫话开发者

2024-07-02 talkingdev

改进推理效率的Block Transformer

这个代码库引入了一种新型的Transformer变压器，其KV缓存大小大幅度减少。虽然尚未在大规模上得到证实，但理论上，它可以匹配常规变压器的性能。这意味着，我们现在有了一种新的工具，可以在处理复杂的计算问题时，...

2024-06-26 talkingdev

GeoMFormer是一种全新的基于Transformer的模型，旨在通过学习不变量和等变量特征来改进分子模型。这种模型的设计，彻底改变了传统分子建模的方法，为化学和生物科学的研究者提供了新的视角和工具。GeoMFormer的出现...

2024-06-21 talkingdev

最近,一种名为ChangeViT的框架引起了科技界的广泛关注。该框架采用视觉变压器（ViTs）进行遥感图像中大规模环境变化的检测。遥感技术作为一种非接触式获取地球表面信息的手段，在环境监测、气候变化研究等领域有着重...

2024-04-05 talkingdev

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...

2024-02-19 talkingdev

最近，研究人员提出了一种新方法，称为SLEB，可以通过剪枝冗余的变压器块来加速大型语言模型（LLMs）的训练和推理。该方法可以减少存储空间和计算成本，同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...

2023-12-22 talkingdev

新的3D-LFM模型采用变压器从2D标记点重建3D结构，无需“对应”3D数据。这种方法是首个这样处理不同点数量、遮挡并且具有泛化能力的方法。

2023-11-09 talkingdev

PixArt是一种新的文本到图像模型，它使用T5文本编码、交叉注意力和扩散变压器，以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练快90%。PixArt模型的训练...

2023-09-29 talkingdev

联合嵌入模型将两种数据类型整合到一个空间中。CLIP是将图像和文本结合的热门方法之一。近期，谷歌研究员提出了一个表现优秀并且基于视觉变压器的Sigmoid CLIP模型。他们现在已经发布了关于模型的更多信息，并更新了...