语音识别的相关内容 - 漫话开发者

2026-06-05 talkingdev

开源| QVAC SDK震撼更新：本地运行大模型，上下文容量暴增5倍，TurboQuant技术加持

Tether团队近日发布了QVAC SDK的最新版本，这是一款面向本地设备、专注于构建跨平台P2P应用的开源工具包。此次更新的核心亮点在于集成了名为TurboQuant的全新优化技术。通过这一技术，开发者在相同硬件条件下，能够...

2026-05-08 talkingdev

在 AI 语音交互技术飞速发展的今天，实时通信协议的选择正成为影响系统性能与可靠性的关键瓶颈。一篇来自 moq.dev 的最新技术分析文章指出，广泛使用的 WebRTC 协议并非 AI 语音应用的理想选择。WebRTC 的设计初衷是...

2026-05-04 talkingdev

OpenAI近日为其编程助手Codex推出了一系列旨在提升用户体验与实用性的更新。最引人注目的变化是引入了“动画宠物”功能，这些虚拟宠物会以屏幕浮层的形式出现，并通过简短的气泡消息与用户进行互动。这一设计不仅赋予...

2026-04-29 talkingdev

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型，标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计，在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

2026-04-07 talkingdev

开发者matthartman近日在GitHub上开源了名为Ghost Pepper的macOS应用，它是一款完全在本地运行的“长按说话”语音转文字工具。该工具的核心技术栈结合了OpenAI开源的WhisperKit语音识别模型与本地运行的大型语言模型（...

2026-03-11 talkingdev

近日，GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线，集成了语音识别（Speech-to-Text）...

2026-03-03 talkingdev

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目，其端到端平均延迟仅为约400毫秒（从用户停止说话到助手发出第一个音节）。这一性能指标在集成了完整的语音识别（STT）、大语言模型（LLM）和语音合成（...

2026-02-25 talkingdev

一家名为Moonshine AI的小型初创公司（团队仅六人，月GPU预算低于10万美元）近日在GitHub上开源了其自动语音识别（ASR）项目Moonshine。该项目针对边缘设备优化，提供了快速且高精度的语音转文本（STT）模型。据开发...