漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-08 talkingdev

OpenAI 也面临 WebRTC 难题:AI 语音交互的实时性陷阱与 QUIC 替代方案

在 AI 语音交互技术飞速发展的今天,实时通信协议的选择正成为影响系统性能与可靠性的关键瓶颈。一篇来自 moq.dev 的最新技术分析文章指出,广泛使用的 WebRTC 协议并非 AI 语音应用的理想选择。WebRTC 的设计初衷是...

Read More
2026-05-08 talkingdev

OpenAI再掀语音革命:发布GPT-Realtime多模态实时音频模型,开启对话式AI新纪元

OpenAI近日在API中正式推出了一系列全新的实时音频模型,标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型:GPT-Realtime-2,专注于增强对话式推理能力,能够实现更自然、更具逻辑性的实时语音对话;G...

Read More
2026-03-03 talkingdev

开源|从零打造亚500毫秒延迟语音助手:技术架构与关键洞察

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...

Read More
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-09 talkingdev

开源|Sopro TTS:仅1.69亿参数,支持零样本语音克隆的轻量级CPU端模型

近日,GitHub上开源了一个名为Sopro的轻量级文本转语音(TTS)模型,其核心亮点在于仅包含1.69亿参数,却实现了零样本语音克隆能力,并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布,迅速在技术社区引...

Read More
2025-12-28 talkingdev

中国拟出台拟人化AI监管新规:要求服务商每两小时主动向用户明示AI身份

据彭博社报道,中国相关部门近期发布了一份关于拟人化人工智能系统使用的监管规则草案,旨在加强对该前沿技术应用的规范。草案核心要求之一是,提供拟人化AI服务的公司必须在用户登录时,以及此后至少每两小时,明确...

Read More
2025-11-26 talkingdev

[开源]TEN框架开源:专为对话式语音AI智能体打造的全新开发平台

近日,TEN框架在GitHub平台正式开源,这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破,为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

Read More
2025-11-25 talkingdev

Vercel发布首款原生iOS应用v0:基于React Native与Expo打造流畅AI聊天体验

Vercel工程团队近日正式发布其首款原生iOS应用v0,该应用采用React Native与Expo框架进行开发,重点聚焦于构建流畅且令人愉悦的AI聊天交互体验。在开发过程中,团队面临键盘响应、滚动优化及实时内容流处理三大技术...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page