大模型推理的相关内容 - 漫话开发者

2026-06-30 talkingdev

DeepSeek开源DSpark新型框架，大模型推理速度飙升85%

DeepSeek近日正式开源了一款名为DSpark的创新框架，旨在显著加速大型语言模型（LLM）的推理过程，据称最高能将解码速度提升85%。这一突破性进展直接针对当前AI大模型在实际应用中普遍存在的响应延迟痛点。与传统模型...

2026-06-24 talkingdev

Graphsignal Profiler 是一个面向生产环境的推理性能剖析平台，专为大规模 AI 推理场景设计。它能够跨越模型、推理引擎、GPU 及其他加速器，提供全栈式的性能可见性，帮助工程师精准定位瓶颈并优化推理效率。与传统...

2026-05-12 talkingdev

在AI大模型推理成本与日俱增的背景下，测试时扩展（Test-Time Scaling）正成为提升模型性能的前沿方向之一。近日，来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架，旨在通过编码Agent在回放环境中迭...

2026-04-23 talkingdev

随着人工智能向智能体（Agent）方向演进，传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答，而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力，尤其...

2026-03-23 talkingdev

近日，GitHub上出现了一个名为Project N.O.M.A.D.（Node for Offline Media, Archives, and Data）的开源项目，它是一款自包含、优先离线的知识服务器，旨在为用户提供无需互联网连接的工具、教育资源和人工智能能力...

2026-02-25 talkingdev

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2，并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-13 talkingdev

近日，多家领先的AI推理服务提供商，包括Baseten、DeepInfra、Fireworks AI和Together AI，宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型，成功将每次推理的令牌成本大幅降低了高达10倍。这一...