Transformer的相关内容 - 漫话开发者

2024-04-05 talkingdev

DeepMind研究实现Transformer模型动态计算优化

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...

2024-04-04 talkingdev

ASTRA是一款基于Transformer架构的模型，其在足球比赛中识别关键时刻的能力令人瞩目。该模型针对行动定位和数据不平衡等挑战提出了有效的解决方案。通过对比赛视频的深度学习分析，ASTRA能够精确识别出比赛中的重要...

2024-04-04 talkingdev

最新研究表明，一种名为'全球中心扩散变换器'（World-Centric Diffusion Transformer，简称WcDT）的技术为自动驾驶汽车的路径规划带来了革命性的创新。该技术融合了扩散模型和变换器，旨在提高自动驾驶汽车在复杂环...

2024-04-04 talkingdev

科研团队近期推出了一项名为DiJiang的创新技术，旨在将现有的Transformer模型转化为更精简、更快速的版本，同时避免了重新训练模型所需的巨大成本。DiJiang技术通过优化模型结构，大幅减少了计算资源的消耗，使得Tra...

2024-04-02 talkingdev

在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段，成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约...

2024-03-29 talkingdev

AI21实验室近日发布了一款新型语言模型——Jamba，它采用了独特的模型结构，旨在实现比Transformers更高的效率，同时保持相当的性能水平。Jamba模型的最大亮点在于其创新性地融合了MoE（Mixture of Experts）层，这使...

2024-03-26 talkingdev

研究人员开发了一种名为View-Decoupled Transformer（VDT）的新型算法，用以应对通过不同摄像机视角识别个体的挑战，例如从无人机到地面摄像机的切换。VDT能够跨越视角差异，准确地识别和跟踪个体，这对于公共安全、...

2024-03-19 talkingdev

韩国科学技术院(KAIST)的研究人员成功研发了C-Transformer，这是一款面向大型语言模型的超低功耗AI芯片，其能效表现显著优于Nvidia的A100 GPU。C-Transformer的问世，为AI领域的能源效率提升设立了新的标杆，有望推...