实时翻译的相关内容 - 漫话开发者

2026-06-10 talkingdev

Gemini 3.5 Live Translate：实时语音翻译，消除尴尬停顿，带来自然对话体验

谷歌近日发布了Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实现实时语音到语音的翻译。与传统的语音翻译相比，该模型支持超过70种语言，并致力于消除翻译过程中常见的尴尬停顿，同时保持语调和情感...

2026-05-12 talkingdev

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览，旨在通过音频、视频和文本三种模态，实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”，能够持续处理与交换多模态信息，彻底打破...

2026-05-11 talkingdev

OpenAI近日发布了一份工程指南，详细介绍了如何使用其最新优化的模型gpt-realtime-translate构建实时语音翻译系统。该模型专为同声传译场景设计，与传统的轮次语音交互不同，它能实现对语音流进行实时、连续的翻译处...

2026-05-08 talkingdev

谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升，成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”（Speculative Decoding）技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...

2026-05-08 talkingdev

OpenAI近日在API中正式推出了一系列全新的实时音频模型，标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型：GPT-Realtime-2，专注于增强对话式推理能力，能够实现更自然、更具逻辑性的实时语音对话；G...

2026-02-10 talkingdev

人工智能开源社区Hugging Face近日在NPM上发布了Transformers.js v4的预览版本，标志着在Web端及JavaScript生态系统中部署和运行机器学习模型的能力迈入了新的阶段。Transformers.js的核心价值在于允许开发者直接在...

2025-12-18 talkingdev

埃隆·马斯克旗下的人工智能公司xAI近日宣布，将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

2025-07-16 talkingdev

Mistral AI近日发布了其首个开源音频模型套件Voxtral，标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本：24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模，可处理复杂语音...