知识蒸馏的相关内容 - 漫话开发者

2023-12-21 talkingdev

Distil Whisper：新的语音识别技术比 Whisper 更快、更小、误差不到1%

Distil-Whisper 是 Whisper 的精简版本，比 Whisper 更快、更小，且在评估集上的误差不到1%。该技术是由 Google Brain 团队在 GitHub 上发布的。Distil-Whisper 采用了一些精简技术，包括低秩分解和知识蒸馏，以实现...

在知识蒸馏和初始化方面已经做了大量的工作，例如“彩票假设”。这项工作提供了一种简单的机制，可以从一个更大的模型中初始化一个更小的模型。这显著提高了较小模型的性能。

这项研究探讨了如何使'学生'网络（较小的模型）在从未遇到过的情况下，更好地从'教师'网络（较大的模型）中学习。研究介绍了一种名为权重平均知识蒸馏（WAKD）的新方法，该方法的效果与现有技术一样好，但使用更为简...