漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

Hugging Face平台最新发布的SIFT-50M(Speech Instruction Fine-Tuning)数据集,是一个包含5000万样本的大规模语音指令微调数据集,专为语音-文本大语言模型(LLMs)的指令微调和预训练而设计。该数据集基于公开可用的语音语料库构建,总计包含14,000小时的语音数据,并利用了大语言模型和现成的专家模型进行优化。SIFT-50M覆盖五种语言,涵盖了语音理解和可控语音生成指令的多样化场景。特别值得注意的是,该数据集通过基于指令的问答对(QA)增强了现有语音数据集的功能,为语音理解任务提供了丰富的数据支持,同时还包含了约500万样本用于可控语音生成任务。这一数据集的发布将极大推动语音-文本大模型的研究和应用,尤其是在多语言语音理解和生成领域。

核心要点

  • SIFT-50M是一个5000万样本的大规模语音指令微调数据集,支持语音-文本大语言模型的训练。
  • 数据集覆盖五种语言,包含14,000小时语音数据,并利用LLMs和专家模型优化。
  • 特别增强了语音理解任务的问答对(QA)和可控语音生成任务的样本。

Read more >