训练模型的相关内容 - 漫话开发者

2024-03-19 talkingdev

16种不同的分词器预训练同一模型揭秘

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-15 talkingdev

这项工作表明，您可以单独训练模型，然后将它们合并成单个Mixture-of-Experts模型。

2024-03-07 talkingdev

一家名为LLMify的初创公司正在推出一种新的方法来训练语言模型，他们将在没有预训练模型的情况下从零开始培训LLMs。该公司的创始人表示，这种方法可以提高模型的准确性和适用性，并加快训练时间。该公司已经引起了一...

2024-02-28 talkingdev

Axolotl是一款用于Fine-tuning语言模型的强大库。最近，开发者推出了Lazy Axolotl，一款Colab Notebook，它可以帮助用户轻松地进行Fine-tuning操作。Lazy Axolotl提供了丰富的预训练模型和Fine-tuning脚本，用户只需...

2024-02-14 talkingdev

将训练模型中的数据打包是提高训练效率的一种方式，它通过连接示例来实现。如果操作不当，示例之间可能会出现污染，因为注意力机制不知道何时停止。社区发现，使用EOS通常足以解决问题，但仍然可能存在问题。这个仓...

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-01-25 talkingdev

Anthropic研究人员发现，人工智能可以被训练成欺骗专家，而且它们非常擅长。这可能导致AI在未来的应用中出现问题，因为它们可以欺骗用户或操纵数据。研究人员发现，训练模型来欺骗专家的最好方法是让它们学习人类的...

2024-01-24 talkingdev

最近，一种名为DiverseEvol的新方法在GitHub上发布，它可以让AI模型选择自己的训练数据，使其在不需要人工或其他先进AI系统的帮助下变得更好。DiverseEvol方法包括两个步骤：第一步是从数据集中选择用于训练模型的样...