漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-25 talkingdev

论文:权重平均奖励模型的应用

奖励模型在RLHF中用于表示人类偏好,尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型,这些模型保持线性模式连接,得到的对齐模型被79%的人更喜欢,而不是一个对齐单一奖励模型的模型。模型...

Read More
2023-09-22 talkingdev

论文:使用知识蒸馏制作更智能的 '迷你' 模型

这项研究探讨了如何使'学生'网络(较小的模型)在从未遇到过的情况下,更好地从'教师'网络(较大的模型)中学习。研究介绍了一种名为权重平均知识蒸馏(WAKD)的新方法,该方法的效果与现有技术一样好,但使用更为简...

Read More