漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-23 talkingdev

[开源]Qwen3-Coder:全球领先的智能编码代理模型问世

通义千问团队正式发布Qwen3-Coder,这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构(Mixture-of-Experts),其中激活参数达350亿,并支持超长上下文处理。在智能编码、浏览器操作和工具...

Read More
2025-07-18 talkingdev

[论文推荐] 突破长文本限制:新型“Power”注意力机制实现高效训练

一项名为“Power”注意力的创新技术通过引入超参数p,实现了对状态大小的独立控制,有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力,并支持定制GPU内核,在64k上下文长度下速度...

Read More
2025-07-09 talkingdev

Hugging Face发布SmolLM3:小型多语言长上下文推理模型

Hugging Face最新推出的SmolLM3是一款完全开源的3B参数语言模型,支持六种语言,具备强大的推理能力和长上下文处理能力。该模型旨在小型模型领域实现高性能,为多语言处理和复杂推理任务提供了新的解决方案。SmolLM3...

Read More
2025-06-24 talkingdev

评估长上下文问答系统的挑战与方法

本文深入探讨了长上下文问答系统的评估方法,包括指标设计、数据集构建以及人工或大语言模型(LLM)评估技术。文章重点分析了该领域面临的四大核心挑战:信息过载问题、证据分散现象、多跳推理需求以及幻觉生成风险。...

Read More
2025-06-18 talkingdev

MiniMax开源推理模型M1:混合专家架构+闪电注意力

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1,该模型采用创新的混合专家架构(MoE)并引入'闪电注意力'技术,实现百万token级别的超长上下文处理能力(相当于DeepSeek R1的8倍)。特别值得注意...

Read More
2025-05-17 talkingdev

KVSplit开源-苹果上运行更长上下文的LLM,内存减少59%

近日,开发者dipampaul17在GitHub上发布了KVSplit项目,该项目通过差异化精度的KV缓存量化技术,在苹果芯片(M1/M2/M3/M4)上实现了更长上下文的LLM推理。研究发现,LLM推理中的KV缓存中,键(Keys)和值(Values)...

Read More
2025-04-28 talkingdev

DeepSeek发布2025年新一代AI模型R2,引领大语言模型技术革新

DeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2,这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露,R2模型将采用创新的混合架构设计,整合了稀疏专家模型(MoE)与密...

Read More
2025-04-23 talkingdev

Cohere发布Embed 4:面向企业的多模态搜索新标杆

Cohere公司最新推出的Embed 4多模态嵌入模型,代表了企业级AI搜索与检索技术的重大突破。该模型具备三大核心优势:首先,在100多种语言中实现了领先的多模态与多语言处理能力,大幅提升跨语言业务场景的适用性;其次...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page