GPU的相关内容 - 漫话开发者

2025-07-07 talkingdev

[论文推荐] Mercury：基于扩散模型的超高速语言模型

近日，研究人员发布了新一代商业级大语言模型Mercury，该模型基于扩散模型技术，采用Transformer架构进行参数化，并能够并行预测多个token。报告重点介绍了Mercury Coder，这是首套专为编程应用设计的扩散大语言模型...

2025-07-04 talkingdev

法国研究机构Kyutai Labs近日开源其文本转语音（TTS）系统Kyutai TTS，该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现，达到行业领先水平。系统创新性地提供单词级时间戳输出功能，英语和法语的字错误...

2025-06-30 talkingdev

PyTorch与vLLM近日宣布深化技术整合，新增支持量化、注意力机制定制及异构硬件加速等关键功能。这一合作标志着两大开源框架在优化大语言模型（LLM）推理性能方面取得重要突破：量化技术可降低模型计算资源消耗达4-8...

2025-06-27 talkingdev

FLUX.1 Kontext [dev]作为一款拥有120亿参数的开源模型，突破性地在消费级硬件上实现了媲美商业闭源软件的图像编辑性能。该模型采用FLUX.1非商业许可协议开放权重，为学术研究和非商业应用提供免费访问权限。技术亮...

2025-06-24 talkingdev

近日一篇关于GPU基础知识的科普文章在技术社区引发广泛讨论，该文章系统梳理了图形处理单元的核心技术原理和发展历程。作为现代计算的核心组件，GPU最初专为图形渲染设计，现已广泛应用于深度学习、科学计算等领域。...

2025-06-20 talkingdev

传统大型语言模型(LLM)系统普遍存在硬件利用率低下的问题，主要源于GPU内核的序列化启动及跨设备通信开销。一支研究团队创新性地开发出专用编译器，可将LLM推理过程自动编译为单一megakernel（超级内核），通过三大...

2025-06-20 talkingdev

首份关于大语言模型（LLM）服务经济学的综合模型揭示，随着AI公司竞相部署高token消耗的推理模型和智能体，当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现，网络延迟而非带宽成为主要瓶颈，阻碍了公司通过简单...

2025-06-19 talkingdev

近日，一篇关于将大语言模型（LLMs）编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计，将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核，显著减少了内核启动...