漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-03 talkingdev

开源| Wall Attention:新型注意力机制突破长文本推理瓶颈,channels维度引入乘性衰减

在处理长文本或长时间序列时,标准Transformer模型的内存占用和计算复杂度会随序列长度平方级增长,并面临信息稀释问题。GitHub上最新开源的“Wall Attention”项目提出了一种极具创新性的注意力变体机制:通过引入带...

Read More
2026-06-03 talkingdev

MiniMax发布M3模型:百万级上下文窗口与开源权重承诺来袭

中国AI创企MiniMax近日正式推出了其最新一代的M3大语言模型,并通过API和Token计划向开发者开放。该模型最引人注目的特点之一是拥有高达100万token的超长上下文窗口,并且官方承诺API至少保证提供51.2万个token的处...

Read More
2026-06-01 talkingdev

MiniMax M3开源模型:融合编码与智能体前沿,百万Token超长上下文

MiniMax 最新发布的开源权重模型 M3 在编码和智能体(Agentic)任务上达到前沿水平。该模型不仅支持图像和视频输入,还可以直接操作桌面计算机。技术上,M3 引入了一种新的注意力架构,支持上下文缩放,并能够处理多...

Read More
2026-05-29 talkingdev

Agent Judge:为生产级智能体打造的长上下文评测新范式

在生产环境中部署基于大语言模型(LLM)的智能体(Agent)时,如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员(Judge)在处理涉及多步推理、状态验证和动态调整的Agent轨迹时,常出现事实...

Read More
2026-05-06 talkingdev

12百万token上下文窗口被打破:Subquadratic发布超长上下文AI模型

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日,初创公司Subquadratic宣布推出一款全新的AI模型,其上下文窗口达到了惊人的1200万token(约合1200万个单词或代码标记),远超过当前主流模...

Read More
2026-04-30 talkingdev

DeepSpeed整合AutoSP:自动序列并行技术,轻松训练超长上下文LLM

PyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-04-29 talkingdev

Claude Opus 4.7新分词器上线:输入成本最高上涨27%,短提示词反降价

Anthropic近日通过引入全新分词器(Tokenizer),对其最新旗舰模型Claude Opus 4.7进行了核心升级。此次优化显著提升了模型对输入文本的理解精度,但同时也带来了一个直接影响用户的改变:成本结构调整。虽然模型的...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page