漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

近日,GitHub上发布了一款名为Spark Text To Speech的语音克隆模型,该模型基于Qwen架构,能够通过文本输入生成高质量的语音。值得注意的是,该模型支持情感提示功能,用户可以通过输入情感指令来调整生成语音的情感表达。研究团队发现,在Codec中使用8k tokens即可实现强大的语音生成效果,这一发现为语音合成技术的进一步发展提供了新的思路。Spark Text To Speech的发布,标志着语音克隆技术在情感表达和语音质量方面迈出了重要一步,未来有望在语音助手、虚拟主播等领域得到广泛应用。

核心要点

  • Spark Text To Speech是基于Qwen架构的语音克隆模型,支持情感提示功能。
  • 研究团队发现,在Codec中使用8k tokens即可实现强大的语音生成效果。
  • 该模型的发布为语音合成技术在情感表达和语音质量方面提供了新的突破。

Read more >