长上下文的相关内容 - 漫话开发者

2025-04-15 talkingdev

OpenAI发布GPT-4.1系列模型：性能全面提升，支持百万级上下文窗口

OpenAI近日在其API中推出了三款全新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编码和指令遵循方面表现优异，全面超越了之前的GPT-4o和GPT-4o mini。新模型不仅具备更大的上下文窗口，支持高达100万toke...

2025-04-07 talkingdev

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段，开发者现可通过Google AI Studio的Gemini API进行体验，而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本，2.5 Pro在跨模态理解、长...

2025-04-07 talkingdev

Meta最新发布的Llama 4模型通过创新性的混合位置编码策略，实现了超过1000万tokens的上下文处理能力。该技术核心在于交替使用无位置嵌入（NoPE）和旋转位置嵌入（RoPE），在保持计算效率的同时显著扩展了上下文窗口...

2025-04-04 talkingdev

Nebius近日开源了Kvax项目，这是一个基于JAX框架的Flash Attention实现，专门针对长上下文训练场景进行了优化。Kvax通过创新的上下文并行技术和高效的文档掩码计算，实现了更快的训练速度和更高的数据密度压缩，在性...

2025-02-27 talkingdev

Hazy Research的最新研究表明，通过Ollama使用本地模型，并结合长上下文云端模型作为协调器，可以在仅花费17%成本的情况下，实现97%的任务性能。这一发现为企业在AI部署中提供了更高效、更经济的解决方案。本地模型...

2025-02-25 talkingdev

近日，Moonshot发布了一项名为Block Attention混合算法的创新技术，该算法在长上下文语言模型（LLM）中的应用表现卓越，被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制，显著提升了模型在处理长文...

2025-02-24 talkingdev

近日，DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而，该论文并未提供相关代码。为此，一项基于Triton的实现应运而生，该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

2024-07-10 talkingdev

最近，一种新型的循环神经网络（RNN）变体在多项任务中的表现超过了Mamba。这种新型的RNN变体的重要特点是其更新函数本身就是一个机器学习（ML）模型。这使得它可以处理长上下文和在上下文中进行学习。在现今的机器...