漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More