Hugging Face发布SIFT-50M语音指令微调数据集，支持多语言语音文本大模型训练

talkingdev • 2025-04-18

140574 views

Hugging Face平台最新发布的SIFT-50M（Speech Instruction Fine-Tuning）数据集，是一个包含5000万样本的大规模语音指令微调数据集，专为语音-文本大语言模型（LLMs）的指令微调和预训练而设计。该数据集基于公开可用的语音语料库构建，总计包含14,000小时的语音数据，并利用了大语言模型和现成的专家模型进行优化。SIFT-50M覆盖五种语言，涵盖了语音理解和可控语音生成指令的多样化场景。特别值得注意的是，该数据集通过基于指令的问答对（QA）增强了现有语音数据集的功能，为语音理解任务提供了丰富的数据支持，同时还包含了约500万样本用于可控语音生成任务。这一数据集的发布将极大推动语音-文本大模型的研究和应用，尤其是在多语言语音理解和生成领域。

核心要点

SIFT-50M是一个5000万样本的大规模语音指令微调数据集，支持语音-文本大语言模型的训练。
数据集覆盖五种语言，包含14,000小时语音数据，并利用LLMs和专家模型优化。
特别增强了语音理解任务的问答对（QA）和可控语音生成任务的样本。

Hugging Face发布SIFT-50M语音指令微调数据集，支持多语言语音文本大模型训练

核心要点

Related posts