变换器的相关内容 - 漫话开发者

2024-04-04 talkingdev

论文：自动驾驶新突破，全球中心扩散变换器技术引领未来

最新研究表明，一种名为'全球中心扩散变换器'（World-Centric Diffusion Transformer，简称WcDT）的技术为自动驾驶汽车的路径规划带来了革命性的创新。该技术融合了扩散模型和变换器，旨在提高自动驾驶汽车在复杂环...

2024-03-28 talkingdev

OPTIN框架是一个创新的方法，用于提高基于变换器的AI模型在各个领域的效率，而无需进行重新训练。该框架采用了一种称为中间特征蒸馏的技术，可以在特定约束下压缩网络，同时几乎不影响其准确性。通过这种方法，可以...

2024-03-20 talkingdev

IBM与NASA的合作项目成功开发出基于先进变换器架构的语言模型，这些模型经过科学文献的训练，旨在提升自然语言理解任务在科学领域的性能。这些模型现已在Hugging Face上开源，供全球开发者和研究人员使用。此举将有...

2024-03-19 talkingdev

最新研究项目YOLOX-ViT在水下机器人领域中引入了一种创新的目标检测方法，该方法通过整合视觉变换器（Visual Transformers）和知识蒸馏（Knowledge Distillation）技术，显著提高了目标检测的准确性和效率。该技术的...

2024-03-18 talkingdev

本文深入探讨了基于变换器的语言模型推理的“光速”理论极限，强调了内存带宽相较于计算能力的重要性。文章通过实例展示了推理速度主要受限于从内存中读取数据的能力，而非执行计算的速度，这对于优化和理解AI性能是一...

2024-02-22 talkingdev

Sasha Rush发布了一份注释教程，介绍了如何使用自定义Triton内核加速Mamba。由于Triton编译器中的一个错误，它目前无法扩展，但它是技术的极端演示，并适合那些想要深入了解状态空间变换器替代品的人。Mamba是一种用...

2023-10-02 talkingdev

近几周出现的最酷、最简洁的视觉论文之一。视觉变换器使用“无用”的像素值作为存储全局信息的地方，这使得注意力映射变得难以解读。然而，如果你向词汇表中加入一个简单的 [reg] 标记，模型就会使用它，而不会将信息...

2023-09-19 talkingdev

对预训练的视觉模型进行特定任务的微调，通常需要大量额外的计算能力。然而，研究人员已经提出了一种名为“显著通道调整”（SCT）的方法，这种方法可以智能地选择模型中需要微调的部分，使用的额外设置要远少于其他方...