语音合成的相关内容 - 漫话开发者

2025-07-04 talkingdev

KyutaiTTS开源-支持流式传输与低延迟的TTS引擎

法国研究机构Kyutai Labs近日开源其文本转语音（TTS）系统Kyutai TTS，该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现，达到行业领先水平。系统创新性地提供单词级时间戳输出功能，英语和法语的字错误...

2025-06-20 talkingdev

一项发表于arXiv的突破性研究提出新型端到端变分编码器架构，通过自动学习韵律特征替代传统手工设计的音高输入，显著提升生成式口语语言模型的自然度表现。该技术摒弃了人工特征工程，直接对语义语音标记与韵律特征...

2025-06-11 talkingdev

Resemble AI近日在GitHub上开源了Chatterbox TTS项目，该项目代表了当前语音合成（TTS）技术的先进水平（State-of-the-Art）。作为开源项目，Chatterbox TTS允许开发者自由贡献代码，旨在推动语音合成技术的进一步发...

2025-05-15 talkingdev

Stability AI近日开源了名为Stable Audio Open Small的文本转音频模型，该模型拥有3.41亿参数，专为在Arm架构的CPU上高效运行而优化。这一突破性技术使得在智能手机上生成11秒的音频片段仅需不到8秒的时间，极大地提...

2025-05-14 talkingdev

亚马逊旗下有声书服务平台Audible正与多家出版商合作，通过AI语音合成技术大幅扩充其有声读物资源库。该平台目前已集成超过100种AI语音，支持英语、西班牙语、法语和意大利语等多种语言的自动播讲。这一举措标志着数...

2025-05-06 talkingdev

近日，GitHub上开源了一个名为VoiceStar的文本转语音（TTS）模型，该模型在零样本语音克隆和情感表达控制方面展现出显著优势。VoiceStar能够通过极少的样本数据实现高质量的语音克隆，这意味着用户只需提供几秒钟的...

2025-04-30 talkingdev

谷歌实验室最新宣布，其AI笔记工具NotebookLM的音频概述功能已扩展至50多种语言，标志着该技术在多语言支持方面取得重大突破。这一更新使得全球更多用户能够通过语音交互快速获取文档摘要，显著提升了知识管理效率。...

2025-04-28 talkingdev

Nari Labs最新发布的Dia-1.6B开源AI模型在情绪语音合成领域取得突破性进展。这款仅1.6B参数的微型模型在测试中展现出超越ElevenLabs和Sesame等行业领导者的表现，尤其擅长模拟极端情绪状态，如歇斯底里的恐怖尖叫。...