漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-14 talkingdev

HF推出Whisper极速转录服务,速度提升8倍

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点(Fast Whisper Endpoint)。这项创新技术通过优化模型架构和计算资源分配,实现了高达8倍的转录速度提升,为语音处理领域树立了新的...

Read More
2025-05-12 talkingdev

本地化构建专属Siri:无需云端,隐私无忧

近日,一篇题为《Build your own Siri. Locally. On-Device. No Cloud.》的技术文章引发广泛关注。文章详细介绍了如何在本地设备上构建类似Siri的语音助手,完全脱离云端服务,从而确保用户隐私安全。这一技术方案利...

Read More
2025-05-06 talkingdev

AI如何量化英语口音强度?潜在空间技术揭示新突破

一项最新研究通过潜在空间技术,实现了AI对英语口音强度的量化分析。该技术由BoldVoice团队开发,通过深度神经网络在潜在空间中捕捉语音特征的微妙差异,从而精确评估非母语者的口音强度。研究在Hacker News引发热议...

Read More
2025-05-05 talkingdev

[开源] 实时AI语音对话项目RealtimeVoiceChat:延迟低至500毫秒

GitHub上的开源项目RealtimeVoiceChat由开发者KoljaB推出,旨在实现与AI的自然语音对话,其延迟时间可控制在约500毫秒内,接近实时交互水平。该项目采用先进的语音识别和生成技术,结合高效的网络传输协议,显著提升...

Read More
2025-04-18 talkingdev

Hugging Face发布SIFT-50M语音指令微调数据集,支持多语言语音文本大模型训练

Hugging Face平台最新发布的SIFT-50M(Speech Instruction Fine-Tuning)数据集,是一个包含5000万样本的大规模语音指令微调数据集,专为语音-文本大语言模型(LLMs)的指令微调和预训练而设计。该数据集基于公开可...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2025-03-12 talkingdev

[论文推荐] 广义离散扩散: 提升文本数据去噪效率与自校正能力

在最新的研究进展中,科学家提出了一种广义离散扩散方法,该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案,使得训练过程更加高效,并赋予了模型自我校正输...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page