漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-02-17 talkingdev

开源|FreeFlow:对标Wispr Flow与Superwhisper的开源实时语音转写替代方案

近日,开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目,旨在为市场上流行的实时语音转写服务(如Wispr Flow、Superwhisper、Monologue等)提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...

Read More
2026-02-10 talkingdev

开源|Transformers.js v4预览版发布:WebGPU加速,JavaScript生态迎来原生AI推理新纪元

人工智能开源社区Hugging Face近日在NPM上发布了Transformers.js v4的预览版本,标志着在Web端及JavaScript生态系统中部署和运行机器学习模型的能力迈入了新的阶段。Transformers.js的核心价值在于允许开发者直接在...

Read More
2026-01-30 talkingdev

苹果收购以色列AI初创公司Q.ai,强化音频AI技术护城河

苹果公司近日完成了对以色列初创公司Q.ai的收购,此举旨在强化其在人工智能音频处理领域的技术储备。Q.ai专注于成像与机器学习技术,尤其在两大前沿方向拥有核心专长:一是实现设备对“耳语”等极低音量语音的精准识别...

Read More
2025-12-23 talkingdev

图解Transformer经典:让复杂架构一目了然

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

Read More
2025-12-06 talkingdev

AI沟通教练Yoodli完成4000万美元B轮融资,估值突破3亿美元

总部位于西雅图的AI沟通训练软件公司Yoodli近日宣布完成4000万美元的B轮融资,本轮融资由WestBridge Capital领投,公司投后估值已超过3亿美元,较之前估值增长逾两倍。Yoodli由前谷歌工程师创立,其核心产品是一款基...

Read More
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-11-11 talkingdev

Meta推出全语种自动语音识别系统,支持超1600种语言

Meta近日发布了名为'全语种自动语音识别'(Omnilingual Automatic Speech Recognition)的AI模型套件,这项突破性技术将自动语音识别能力扩展到1600多种语言,覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

Read More
2025-10-01 talkingdev

开源|Handy:完全离线的开源语音转文字工具,支持跨平台与自定义快捷键

近期在GitHub上开源的Handy项目,是一款完全离线运行的跨平台语音转文字应用,其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖,在隐私保...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page