近日,开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目,旨在为市场上流行的实时语音转写服务(如Wispr Flow、Superwhisper、Monologue等)提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...
Read More人工智能开源社区Hugging Face近日在NPM上发布了Transformers.js v4的预览版本,标志着在Web端及JavaScript生态系统中部署和运行机器学习模型的能力迈入了新的阶段。Transformers.js的核心价值在于允许开发者直接在...
Read More苹果公司近日完成了对以色列初创公司Q.ai的收购,此举旨在强化其在人工智能音频处理领域的技术储备。Q.ai专注于成像与机器学习技术,尤其在两大前沿方向拥有核心专长:一是实现设备对“耳语”等极低音量语音的精准识别...
Read More一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...
Read More总部位于西雅图的AI沟通训练软件公司Yoodli近日宣布完成4000万美元的B轮融资,本轮融资由WestBridge Capital领投,公司投后估值已超过3亿美元,较之前估值增长逾两倍。Yoodli由前谷歌工程师创立,其核心产品是一款基...
Read MoreMeta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...
Read MoreMeta近日发布了名为'全语种自动语音识别'(Omnilingual Automatic Speech Recognition)的AI模型套件,这项突破性技术将自动语音识别能力扩展到1600多种语言,覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...
Read More近期在GitHub上开源的Handy项目,是一款完全离线运行的跨平台语音转文字应用,其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖,在隐私保...
Read More