语音处理的相关内容 - 漫话开发者

2025-06-25 talkingdev

ElevenLabs推出个人AI语音助手11.ai，集成多平台工作流

人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手，该产品以其低延迟特性脱颖而出，并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP（多通道处理）集成技术，11.ai能够...

2025-05-21 talkingdev

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-05-14 talkingdev

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点（Fast Whisper Endpoint）。这项创新技术通过优化模型架构和计算资源分配，实现了高达8倍的转录速度提升，为语音处理领域树立了新的...

2025-03-17 talkingdev

最近，一项名为WSI的研究将Whisper自动语音识别（ASR）编码器重新应用于多语言说话人识别任务，通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时，表现优于现有主流模型如Pyann...

2025-02-27 talkingdev

ElevenLabs近日宣布推出其自主研发的转录模型Scribe，该模型支持99种语言，并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能，还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

2024-05-30 talkingdev

Cartezia公司，由SSMs、Mamba和子二次方变换变体的创造者们成立，最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目，预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...