漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-12 talkingdev

开源|AutoTTS:无需梯度更新,用编码Agent自动探索测试时扩展策略

在AI大模型推理成本与日俱增的背景下,测试时扩展(Test-Time Scaling)正成为提升模型性能的前沿方向之一。近日,来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架,旨在通过编码Agent在回放环境中迭...

Read More
2026-04-23 talkingdev

AI推理新挑战:基准测试揭示智能体工作负载对引擎性能的深层影响

随着人工智能向智能体(Agent)方向演进,传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答,而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力,尤其...

Read More
2026-03-23 talkingdev

开源|Project N.O.M.A.D.:一款集成AI与离线知识库的生存级便携服务器

近日,GitHub上出现了一个名为Project N.O.M.A.D.(Node for Offline Media, Archives, and Data)的开源项目,它是一款自包含、优先离线的知识服务器,旨在为用户提供无需互联网连接的工具、教育资源和人工智能能力...

Read More
2026-02-25 talkingdev

推理速度新标杆:Inception Labs发布Mercury 2,号称全球最快推理大语言模型

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2,并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

Read More
2026-02-23 talkingdev

开源|突破显存限制:开发者实现单张RTX 3090运行Llama 3.1 70B,NVMe直连GPU绕过CPU

近日,在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目,其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信,绕过CPU和系统内存的传统数据路径,从而在消费级显卡RTX 3090上成功运行了参数量...

Read More
2026-02-13 talkingdev

开源模型+Blackwell架构:头部推理服务商实现AI成本骤降10倍

近日,多家领先的AI推理服务提供商,包括Baseten、DeepInfra、Fireworks AI和Together AI,宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型,成功将每次推理的令牌成本大幅降低了高达10倍。这一...

Read More
2026-01-29 talkingdev

LM Studio 0.4.0发布:支持服务器部署与连续批处理并行请求,大幅提升本地大模型推理效率

近日,备受开发者关注的本地大语言模型运行平台LM Studio发布了其0.4.0版本更新。本次更新带来了多项关键性功能升级,核心聚焦于提升生产环境下的部署能力与推理性能。最引人注目的新特性是支持服务器部署模式,这使...

Read More
2026-01-16 talkingdev

开源|DASD:序列蒸馏技术打造高效推理模型,4B/30B版本在代码、数学与科学基准测试中表现强劲

近日,由D2I-ai团队在GitHub上开源的DASD(序列蒸馏)项目,提出了一种创新的模型蒸馏流程,旨在训练出更紧凑、高效的模型以应对复杂的推理任务。该流程整合了温度调度学习与发散感知采样等前沿技术,通过精细化的知...

Read More
  1. Next Page