Tether团队近日发布了QVAC SDK的最新版本,这是一款面向本地设备、专注于构建跨平台P2P应用的开源工具包。此次更新的核心亮点在于集成了名为TurboQuant的全新优化技术。通过这一技术,开发者在相同硬件条件下,能够...
Read More在 AI 语音交互技术飞速发展的今天,实时通信协议的选择正成为影响系统性能与可靠性的关键瓶颈。一篇来自 moq.dev 的最新技术分析文章指出,广泛使用的 WebRTC 协议并非 AI 语音应用的理想选择。WebRTC 的设计初衷是...
Read MoreOpenAI近日为其编程助手Codex推出了一系列旨在提升用户体验与实用性的更新。最引人注目的变化是引入了“动画宠物”功能,这些虚拟宠物会以屏幕浮层的形式出现,并通过简短的气泡消息与用户进行互动。这一设计不仅赋予...
Read MoreNVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...
Read More开发者matthartman近日在GitHub上开源了名为Ghost Pepper的macOS应用,它是一款完全在本地运行的“长按说话”语音转文字工具。该工具的核心技术栈结合了OpenAI开源的WhisperKit语音识别模型与本地运行的大型语言模型(...
Read More近日,GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线,集成了语音识别(Speech-to-Text)...
Read More开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...
Read More一家名为Moonshine AI的小型初创公司(团队仅六人,月GPU预算低于10万美元)近日在GitHub上开源了其自动语音识别(ASR)项目Moonshine。该项目针对边缘设备优化,提供了快速且高精度的语音转文本(STT)模型。据开发...
Read More