Transformer的相关内容 - 漫话开发者

2025-04-29 talkingdev

IBM开源Bamba模型：融合Transformer与SSM优势的新型大语言模型

IBM研究院近日推出开源大语言模型Bamba，该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型（SSM）的推理速度优势。作为IBM Granite系列模型的技术前导，Bamba通过注意力机制与状态空间方程的混合设...

2025-04-28 talkingdev

DeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2，这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露，R2模型将采用创新的混合架构设计，整合了稀疏专家模型(MoE)与密...

2025-04-25 talkingdev

来自arXiv的最新研究论文提出了一种名为DFloat11的动态长度浮点无损压缩框架，通过创新性地利用LLM权重中BFloat16格式的低熵特性，实现了30%的模型体积缩减，同时保持输出结果与原始模型的比特级一致性。该技术采用...

2025-04-25 talkingdev

近日，Hugging Face Hub发布的Omdet Turbo技术标志着实时开放词汇对象检测领域取得显著进展。该技术通过优化模型架构和算法效率，在保持高精度的同时大幅提升检测速度，解决了传统对象检测系统在动态场景中响应延迟...

2025-04-25 talkingdev

随着人工智能模型复杂度呈指数级增长，可解释性研究已成为保障AI系统安全可靠的核心议题。斯坦福大学研究员Dario Amodei在最新论述中指出，当前Transformer架构的参数量已突破万亿级别，但决策黑箱问题导致医疗诊断...

2025-04-24 talkingdev

近日，一项名为低至高多级Transformer（Low-to-high Multi-Level Transformer）的新技术针对当前视觉Transformer（ViT）在图像超分辨率任务中存在的复杂性和效率低下问题提出了创新解决方案。该技术通过优化Transfor...

2025-04-23 talkingdev

本文深入探讨了图Transformer这一新兴技术架构，及其与图神经网络(GNN)的对比关系。作为图表示学习领域的最新进展，图Transformer通过自注意力机制直接建模图中节点间的全局依赖关系，突破了传统GNN基于局部邻域聚合...

2025-04-07 talkingdev

近期，GitHub上开源了一个名为CrystalFormer的Transformer模型，该模型利用空间群对称性生成晶体结构，显著提高了晶体生成的效率和数据友好性。晶体结构在材料科学、化学和物理学等领域具有重要应用，传统方法通常依...