数据集发布的相关内容 - 漫话开发者

2023-11-08 talkingdev

30T多语言开放数据集发布

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据，并具有令人印象深刻的广度。重要的是，已经完成了许多去重工作和一些启发式过滤工作，没有代码数据。

2023-09-20 talkingdev

在谷歌的新数据集发布后，CulturaX紧随其后，推出了新的数据集。这是一个清洁整理过的多语言数据标记集，总量达到了6T。这一数据集的发布，将为多语言语言模型的进一步发展提供巨大的助力。谷歌和CulturaX的这两次数...

2023-06-20 talkingdev

MAGICBRUSH是一个独特的、大规模的数据集，可帮助通过文本指令进行图像编辑，改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例，已用于训练InstructPix2Pix图像编辑...

2023-06-09 talkingdev

近日，一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍，这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下，借助这个数据集和创新的...

2023-04-18 talkingdev

近日，Meta发布了一份1.2万亿标记数据集，可用于复现Llama模型的训练过程。该数据集是基于Llama论文中的训练混合比例构建而成，旨在解决由于许可限制而无法商业化应用的问题。以下是该新闻的三个核心要点： - Met...