漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-29 talkingdev

自己的数据上评估LLM的性能

语言模型的性能通常是在一个非常小的筛选数据集上进行评估的。这些数据的分布往往从生产环境中大大简化。使用自我监督评估,您可以使用自己的数据集来评估这些模型。您甚至可以使用从生产环境中流入的数据。

Read More