语音识别的相关内容 - 漫话开发者

2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近，一项名为WSI的研究将Whisper自动语音识别（ASR）编码器重新应用于多语言说话人识别任务，通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时，表现优于现有主流模型如Pyann...

2025-03-12 talkingdev

在最新的研究进展中，科学家提出了一种广义离散扩散方法，该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案，使得训练过程更加高效，并赋予了模型自我校正输...

2025-02-27 talkingdev

ElevenLabs近日宣布推出其自主研发的转录模型Scribe，该模型支持99种语言，并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能，还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

2024-09-18 talkingdev

Moshi 是一款专注于实时对话的语音文本基础模型，旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力，能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

2024-08-11 talkingdev

OpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台，旨在提供一个统一的接口，使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口，包括数据集管理、模型训练...

2024-07-11 talkingdev

近日，由香港中文大学、清华大学等机构的研究人员提出了一种新的注意力机制模型——FlashAttention-3。相较于传统的注意力机制，FlashAttention-3 实现了异步和低精度计算，从而实现了在保证准确度的同时，大幅提高了...

2024-07-09 talkingdev

近日有网友发出问题：浏览器如何隔离内部音频和麦克风输入？对此，业内专家指出，浏览器为了保护用户的隐私，会采取一系列技术手段来隔离内部音频和麦克风输入，比如使用WebRTC API（Web Real-Time Communications A...

2024-07-09 talkingdev

近日，GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力，包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解；口语语言识...