漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-05 talkingdev

开源| QVAC SDK震撼更新:本地运行大模型,上下文容量暴增5倍,TurboQuant技术加持

Tether团队近日发布了QVAC SDK的最新版本,这是一款面向本地设备、专注于构建跨平台P2P应用的开源工具包。此次更新的核心亮点在于集成了名为TurboQuant的全新优化技术。通过这一技术,开发者在相同硬件条件下,能够...

Read More
2026-05-08 talkingdev

OpenAI 也面临 WebRTC 难题:AI 语音交互的实时性陷阱与 QUIC 替代方案

在 AI 语音交互技术飞速发展的今天,实时通信协议的选择正成为影响系统性能与可靠性的关键瓶颈。一篇来自 moq.dev 的最新技术分析文章指出,广泛使用的 WebRTC 协议并非 AI 语音应用的理想选择。WebRTC 的设计初衷是...

Read More
2026-05-04 talkingdev

OpenAI为Codex新增动画宠物与配置导入功能:桌面编程助手更具亲和力

OpenAI近日为其编程助手Codex推出了一系列旨在提升用户体验与实用性的更新。最引人注目的变化是引入了“动画宠物”功能,这些虚拟宠物会以屏幕浮层的形式出现,并通过简短的气泡消息与用户进行互动。这一设计不仅赋予...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-04-07 talkingdev

开源|Ghost Pepper:macOS本地长按语音转文字工具,基于WhisperKit与本地LLM,数据不出设备

开发者matthartman近日在GitHub上开源了名为Ghost Pepper的macOS应用,它是一款完全在本地运行的“长按说话”语音转文字工具。该工具的核心技术栈结合了OpenAI开源的WhisperKit语音识别模型与本地运行的大型语言模型(...

Read More
2026-03-11 talkingdev

开源|RCLI:完全本地的macOS语音AI助手,无需云端即可控制电脑与文档问答

近日,GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线,集成了语音识别(Speech-to-Text)...

Read More
2026-03-03 talkingdev

开源|从零打造亚500毫秒延迟语音助手:技术架构与关键洞察

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...

Read More
2026-02-25 talkingdev

开源|Moonshine开源语音识别模型:边缘设备上的STT精度超越WhisperLargev3

一家名为Moonshine AI的小型初创公司(团队仅六人,月GPU预算低于10万美元)近日在GitHub上开源了其自动语音识别(ASR)项目Moonshine。该项目针对边缘设备优化,提供了快速且高精度的语音转文本(STT)模型。据开发...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page