语音识别的相关内容 - 漫话开发者

2026-02-17 talkingdev

开源|FreeFlow：对标Wispr Flow与Superwhisper的开源实时语音转写替代方案

近日，开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目，旨在为市场上流行的实时语音转写服务（如Wispr Flow、Superwhisper、Monologue等）提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...

2026-02-10 talkingdev

人工智能开源社区Hugging Face近日在NPM上发布了Transformers.js v4的预览版本，标志着在Web端及JavaScript生态系统中部署和运行机器学习模型的能力迈入了新的阶段。Transformers.js的核心价值在于允许开发者直接在...

2026-01-30 talkingdev

苹果公司近日完成了对以色列初创公司Q.ai的收购，此举旨在强化其在人工智能音频处理领域的技术储备。Q.ai专注于成像与机器学习技术，尤其在两大前沿方向拥有核心专长：一是实现设备对“耳语”等极低音量语音的精准识别...

2025-12-23 talkingdev

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注，该博客由jalammar撰写，通过大量直观的图示和清晰的解释，深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

2025-12-06 talkingdev

总部位于西雅图的AI沟通训练软件公司Yoodli近日宣布完成4000万美元的B轮融资，本轮融资由WestBridge Capital领投，公司投后估值已超过3亿美元，较之前估值增长逾两倍。Yoodli由前谷歌工程师创立，其核心产品是一款基...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-11-11 talkingdev

Meta近日发布了名为'全语种自动语音识别'（Omnilingual Automatic Speech Recognition）的AI模型套件，这项突破性技术将自动语音识别能力扩展到1600多种语言，覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

2025-10-01 talkingdev

近期在GitHub上开源的Handy项目，是一款完全离线运行的跨平台语音转文字应用，其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖，在隐私保...