最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...
Read More在最新的研究进展中,科学家提出了一种广义离散扩散方法,该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案,使得训练过程更加高效,并赋予了模型自我校正输...
Read MoreElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...
Read MoreMoshi 是一款专注于实时对话的语音文本基础模型,旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力,能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...
Read MoreOpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台,旨在提供一个统一的接口,使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口,包括数据集管理、模型训练...
Read More近日,由香港中文大学、清华大学等机构的研究人员提出了一种新的注意力机制模型——FlashAttention-3。相较于传统的注意力机制,FlashAttention-3 实现了异步和低精度计算,从而实现了在保证准确度的同时,大幅提高了...
Read More近日有网友发出问题:浏览器如何隔离内部音频和麦克风输入?对此,业内专家指出,浏览器为了保护用户的隐私,会采取一系列技术手段来隔离内部音频和麦克风输入,比如使用WebRTC API(Web Real-Time Communications A...
Read More近日,GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力,包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解;口语语言识...
Read More