Transformer的相关内容 - 漫话开发者

2026-04-14 talkingdev

论文推荐|DeepMind提出弹性循环Transformer：参数锐减4倍，视觉生成质量依然顶尖

DeepMind的研究团队近日在arXiv上发布了一项名为“弹性循环Transformer”的创新工作，为视觉生成模型领域带来了显著的效率突破。传统视觉生成模型通常依赖堆叠大量独立的Transformer层，导致参数量庞大。ELT的核心创新...

2026-04-02 talkingdev

近日，OpenMed团队在Hugging Face平台发布了一项重要成果，展示了其构建的端到端蛋白质AI全流程。该流程涵盖了蛋白质结构预测、序列设计以及关键的密码子优化环节。研究团队对多种Transformer架构进行了深入的密码子...

2026-03-18 talkingdev

近日，GitHub上开源了一个名为MoDA的项目，它实现了一种创新的注意力机制——混合深度注意力。该机制的核心突破在于，允许注意力头同时访问当前层以及更早层的键值对。这一设计旨在解决随着模型深度增加，信息在传递过...

2026-03-16 talkingdev

人工智能研究机构Percepta近期发布了一项前沿研究成果，探讨了大型语言模型（LLMs）作为通用计算设备的可能性。该研究成功在Transformer架构内部构建了一个“计算机”，能够高效执行任意的C语言程序，并运行数百万个计...

2026-02-25 talkingdev

近日，通义千问团队在Hugging Face平台正式发布了Qwen3.5-35B-A3B模型。该模型集成了当前人工智能领域的多项前沿技术突破，旨在通过开源方式推动AI技术的民主化与普及。其核心亮点在于原生支持高达262,144个令牌的上...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-10 talkingdev

人工智能开源社区Hugging Face近日在NPM上发布了Transformers.js v4的预览版本，标志着在Web端及JavaScript生态系统中部署和运行机器学习模型的能力迈入了新的阶段。Transformers.js的核心价值在于允许开发者直接在...

2026-01-01 talkingdev

近日，GitHub上开源了一个名为E2E的JAX官方实现项目，它提出了一种创新的长上下文语言建模方法。该方法的核心在于将传统的语言建模任务重新定义为持续学习问题。E2E模型采用标准的Transformer架构，并配合滑动窗口注...