Hugging Face发布SIFT-50M语音指令微调数据集,支持多语言语音文本大模型训练
talkingdev • 2025-04-18
4508 views
Hugging Face平台最新发布的SIFT-50M(Speech Instruction Fine-Tuning)数据集,是一个包含5000万样本的大规模语音指令微调数据集,专为语音-文本大语言模型(LLMs)的指令微调和预训练而设计。该数据集基于公开可用的语音语料库构建,总计包含14,000小时的语音数据,并利用了大语言模型和现成的专家模型进行优化。SIFT-50M覆盖五种语言,涵盖了语音理解和可控语音生成指令的多样化场景。特别值得注意的是,该数据集通过基于指令的问答对(QA)增强了现有语音数据集的功能,为语音理解任务提供了丰富的数据支持,同时还包含了约500万样本用于可控语音生成任务。这一数据集的发布将极大推动语音-文本大模型的研究和应用,尤其是在多语言语音理解和生成领域。
核心要点
- SIFT-50M是一个5000万样本的大规模语音指令微调数据集,支持语音-文本大语言模型的训练。
- 数据集覆盖五种语言,包含14,000小时语音数据,并利用LLMs和专家模型优化。
- 特别增强了语音理解任务的问答对(QA)和可控语音生成任务的样本。