漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-15 talkingdev

Stable Audio Open Small开源TTS模型,可在Arm CPU上运行

Stability AI近日开源了名为Stable Audio Open Small的文本转音频模型,该模型拥有3.41亿参数,专为在Arm架构的CPU上高效运行而优化。这一突破性技术使得在智能手机上生成11秒的音频片段仅需不到8秒的时间,极大地提...

Read More
2025-05-14 talkingdev

Audible联手出版商扩展AI有声读物库,支持多语言合成

亚马逊旗下有声书服务平台Audible正与多家出版商合作,通过AI语音合成技术大幅扩充其有声读物资源库。该平台目前已集成超过100种AI语音,支持英语、西班牙语、法语和意大利语等多种语言的自动播讲。这一举措标志着数...

Read More
2025-05-06 talkingdev

[开源]VoiceStar文本转语音模型:零样本语音克隆与情感控制新突破

近日,GitHub上开源了一个名为VoiceStar的文本转语音(TTS)模型,该模型在零样本语音克隆和情感表达控制方面展现出显著优势。VoiceStar能够通过极少的样本数据实现高质量的语音克隆,这意味着用户只需提供几秒钟的...

Read More
2025-04-30 talkingdev

NotebookLM音频播客现已支持超过50种语言

谷歌实验室最新宣布,其AI笔记工具NotebookLM的音频概述功能已扩展至50多种语言,标志着该技术在多语言支持方面取得重大突破。这一更新使得全球更多用户能够通过语音交互快速获取文档摘要,显著提升了知识管理效率。...

Read More
2025-04-28 talkingdev

开源AI模型Dia-1.6B:以小体积实现超越巨头的情绪语音合成

Nari Labs最新发布的Dia-1.6B开源AI模型在情绪语音合成领域取得突破性进展。这款仅1.6B参数的微型模型在测试中展现出超越ElevenLabs和Sesame等行业领导者的表现,尤其擅长模拟极端情绪状态,如歇斯底里的恐怖尖叫。...

Read More
2025-04-21 talkingdev

开源对话TTS模型Dia发布,实现高度拟真语音生成

近日,一款名为Dia的开源权重TTS(文本转语音)模型正式亮相,专注于生成高度拟真的对话语音。Dia作为开放权重的技术项目,允许开发者自由访问和调整模型参数,为语音合成领域提供了新的工具选择。该模型通过优化对...

Read More
2025-04-04 talkingdev

开源语音合成模型Zonos TTS发布:支持多语言与实时生成

近日,开源社区迎来一款突破性的语音合成模型Zonos TTS,该模型基于Apache 2.0协议发布,具备语音生成与克隆能力。其核心技术亮点包括:1)支持多语言合成,打破传统单一语种限制;2)采用实时生成架构,延迟低于200...

Read More
2025-04-01 talkingdev

[开源]Orpheus:无需GPU的轻量级文本转语音系统

开源项目Orpheus近期引发开发者社区关注,该项目通过C++实现了一个高效易用的文本转语音(TTS)系统。与Llama.cpp类似,其最大技术亮点在于完全脱离GPU依赖,仅需简单安装即可在普通计算设备上运行,显著降低了语音合...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page