漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

RedPajama-Data(GitHub代码库)

talkingdev • 2023-04-18

1647055 views

本文介绍了RedPajama-Data GitHub代码库的内容,以下是该代码库的三个核心要点: - 该代码库包含可重现RedPajama数据的数据配方。可以使用它来重新创建LLaMA训练数据集。 - 该代码库包含七个数据集,总共有超过1.2万亿个token。所有的预处理脚本和指南都提供了。 - 提供了一个探索数据子集的仪表板。