漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-08 talkingdev

30T多语言开放数据集发布

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。

Read More
2023-09-20 talkingdev

CulturaX发布6T多语言数据标记,助推多语言模型发展

在谷歌的新数据集发布后,CulturaX紧随其后,推出了新的数据集。这是一个清洁整理过的多语言数据标记集,总量达到了6T。这一数据集的发布,将为多语言语言模型的进一步发展提供巨大的助力。谷歌和CulturaX的这两次数...

Read More
2023-06-20 talkingdev

基于文本指令的图像编辑大规模数据集发布

MAGICBRUSH是一个独特的、大规模的数据集,可帮助通过文本指令进行图像编辑,改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例,已用于训练InstructPix2Pix图像编辑...

Read More
2023-06-09 talkingdev

中文视频理解领域的重量级数据集发布(GitHub仓库)

近日,一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍,这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下,借助这个数据集和创新的...

Read More
2023-04-18 talkingdev

1.2万亿数据集发布,可复现Llama训练

近日,Meta发布了一份1.2万亿标记数据集,可用于复现Llama模型的训练过程。该数据集是基于Llama论文中的训练混合比例构建而成,旨在解决由于许可限制而无法商业化应用的问题。 以下是该新闻的三个核心要点: - Met...

Read More
  1. Prev Page