语音AI的相关内容 - 漫话开发者

2026-05-08 talkingdev

OpenAI再掀语音革命：发布GPT-Realtime多模态实时音频模型，开启对话式AI新纪元

OpenAI近日在API中正式推出了一系列全新的实时音频模型，标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型：GPT-Realtime-2，专注于增强对话式推理能力，能够实现更自然、更具逻辑性的实时语音对话；G...

2026-05-05 talkingdev

OpenAI近日详细披露了其用于全球规模实时语音交互的低延迟基础设施架构。该架构基于重新设计的WebRTC协议，核心采用了分体中继（split relay）和收发器（transceiver）模型。通过将传统WebRTC的单一媒体传输路径拆解...

2026-03-11 talkingdev

近日，GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线，集成了语音识别（Speech-to-Text）...

2026-03-11 talkingdev

近日，GitHub开源项目RCLI（RunanywhereAI/RCLI）发布，为macOS用户带来了一款完全在设备端运行的语音人工智能助手。该工具的核心创新在于其“全本地化”架构，集成了本地语音AI与检索增强生成（RAG）技术，用户可直接...

2026-02-17 talkingdev

近日，开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目，旨在为市场上流行的实时语音转写服务（如Wispr Flow、Superwhisper、Monologue等）提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...

2026-01-09 talkingdev

近日，GitHub上开源了一个名为Sopro的轻量级文本转语音（TTS）模型，其核心亮点在于仅包含1.69亿参数，却实现了零样本语音克隆能力，并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布，迅速在技术社区引...

2025-12-18 talkingdev

近日，由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型，标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案，其核心亮点在于集成了多语言支持、精细化的情感...

2025-12-18 talkingdev

埃隆·马斯克旗下的人工智能公司xAI近日宣布，将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...