漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-04 talkingdev

FineWeb:高质量网络规模文本数据集发布

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而,FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集,用于语言模型训练。...

Read More
2024-03-14 talkingdev

OpenAI计划今年发布文本到视频模型Sora

据报道,OpenAI计划在进行漏洞测试和设置安全防护措施后,于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型,这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...

Read More
2024-01-23 talkingdev

HuggingFace开源数据过滤库Datatrove

HuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。

Read More
2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议,但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式,以便更方便地进...

Read More
2023-06-21 talkingdev

Autolabel:自动标注工具开源

Autolabel是一个Python库,可以使用你选择的任何大型语言模型(LLM)来标注、清理和丰富文本数据集

Read More
2023-06-09 talkingdev

中文视频理解领域的重量级数据集发布(GitHub仓库)

近日,一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍,这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下,借助这个数据集和创新的...

Read More