训练数据的相关内容 - 漫话开发者

2024-03-04 talkingdev

Bonito开源模型，将未标注文本转换为定制训练数据集

Bonito是一种开源模型，旨在将未注释的文本转换为定制的训练数据集，从而增强大型语言模型对专业任务的适应性，而不需要预先存在的注释。

2024-02-27 talkingdev

谷歌承认其AI模型Gemini存在问题。该模型会向历史图像中注入不适当的多样性，反映出训练数据中存在偏见的问题。这个缺陷引发了有关科技领域中多样性、公平性和包容性的讨论。谷歌暗示将来会做出改进，但没有就AI在生...

2024-02-22 talkingdev

根据OpenAI平台上的新文档，GPT-4模型的训练数据已更新，包括了截止于2023年12月的信息。GPT-4是一种自然语言处理模型，它可以生成人类能够理解的语言。这一更新表明，GPT-4将有更多的信息可用于训练，以更好地理解...

2024-02-13 talkingdev

自然语言处理（NLP）中，让语言模型生成自己的训练数据是一个具有挑战性但前景广阔的研究领域。SPIN是一种方法，已经显示出很大的前途。该代码已经发布，但据报道使用起来很有挑战性。

2024-02-08 talkingdev

Bria AI公司已经开源了其背景去除模型和工具，包括训练数据混合和性能指标。该模型是相比其他开源模型的重大改进。这个模型可以轻松去除图像背景，使得用户可以更方便地进行后期处理，并且可以应用于诸如视频会议、...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-01-24 talkingdev

最近，一种名为DiverseEvol的新方法在GitHub上发布，它可以让AI模型选择自己的训练数据，使其在不需要人工或其他先进AI系统的帮助下变得更好。DiverseEvol方法包括两个步骤：第一步是从数据集中选择用于训练模型的样...

2024-01-12 talkingdev

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...