漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-03 talkingdev

开源| Wall Attention:新型注意力机制突破长文本推理瓶颈,channels维度引入乘性衰减

在处理长文本或长时间序列时,标准Transformer模型的内存占用和计算复杂度会随序列长度平方级增长,并面临信息稀释问题。GitHub上最新开源的“Wall Attention”项目提出了一种极具创新性的注意力变体机制:通过引入带...

Read More
2026-05-23 talkingdev

Anthropic揭秘Project Glasswing:AI安全透明度的新突破

Anthropic发布了其名为“Project Glasswing”的最新研究进展,旨在提升人工智能系统的透明度和可解释性。该项目名称引用了一种蝴蝶的透明翅膀,象征着让AI模型内部运作变得更加清晰可见。此次更新是项目初期的阶段性汇...

Read More
2026-05-20 talkingdev

AI2发布OlmoEarth v1.1:行星级遥感分析成本骤降3倍,性能不变

艾伦人工智能研究所(Ai2)最新发布的OlmoEarth v1.1模型家族,在遥感智能分析领域实现了显著的成本突破。该系列模型通过创新的序列长度优化技术,将处理遥感数据的计算成本最高降低至原来的三分之一(即3倍效率提升...

Read More
2026-05-06 talkingdev

12百万token上下文窗口被打破:Subquadratic发布超长上下文AI模型

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日,初创公司Subquadratic宣布推出一款全新的AI模型,其上下文窗口达到了惊人的1200万token(约合1200万个单词或代码标记),远超过当前主流模...

Read More
2026-03-18 talkingdev

开源|MoDA:硬件感知的高效混合深度注意力机制实现

近日,GitHub上开源了一个名为MoDA的项目,它实现了一种创新的注意力机制——混合深度注意力。该机制的核心突破在于,允许注意力头同时访问当前层以及更早层的键值对。这一设计旨在解决随着模型深度增加,信息在传递过...

Read More
2026-03-16 talkingdev

注意力残差:重新思考深度聚合,Moonshot AI提出新架构提升模型性能

在深度学习领域,残差连接(Residual Connections)是构建深层神经网络的关键技术,它通过将浅层特征直接传递到深层,有效缓解了梯度消失问题。然而,传统的残差连接通常采用固定、均匀的累加方式,这可能限制了模型...

Read More
2026-03-16 talkingdev

突破性研究:Transformer能否成为通用计算机?Percepta展示在模型内部执行C程序

人工智能研究机构Percepta近期发布了一项前沿研究成果,探讨了大型语言模型(LLMs)作为通用计算设备的可能性。该研究成功在Transformer架构内部构建了一个“计算机”,能够高效执行任意的C语言程序,并运行数百万个计...

Read More
2026-03-04 talkingdev

GPT-5.3 Instant发布:更流畅实用的日常对话AI助手

OpenAI近日发布了其最新对话模型GPT-5.3 Instant,该版本在Hacker News社区引发了广泛关注,获得了319个点赞和254条评论。作为GPT系列的最新迭代,GPT-5.3 Instant的核心升级在于显著提升了日常对话的流畅度和实用性...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page