模型性能的相关内容 - 漫话开发者

2024-03-28 talkingdev

通过街头霸王游戏测试基准语言模型

语言模型（LLMs）的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

2024-03-22 talkingdev

Meta公司近日发布了一个名为Torchtune的原生PyTorch库，专门用于精细调整语言模型。该库旨在为开发者提供更为便捷的工具，以便在PyTorch框架中进行语言模型的微调工作。通过Torchtune，开发者可以更容易地实现模型性...

2024-03-21 talkingdev

DreamDA提出了一种全新的数据增强技术，该技术通过扩散模型合成多样化、高质量的图像，这些图像与原始数据分布极为相似。数据增强在机器学习和深度学习领域中扮演着至关重要的角色，尤其在训练模型时，能够提高模型...

2024-03-19 talkingdev

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-19 talkingdev

下一个标记预测作为一个简单的目标，却能引发复杂的行为模式。最新的研究发现，仅通过一个自注意力层并结合梯度下降法训练，就能将问题分解为困难的检索和柔和的组合，这一过程不仅实现了上下文学习，还显著提升了模...

2024-03-18 talkingdev

Cappy是一款小型模型，专门设计用于接收指令和候选完成，然后为完成度打分，以衡量其完成指令的程度。在这项任务上，Cappy的表现超越了许多更大的模型，这表明它可能作为训练和生成过程中的一个反馈机制。Cappy的成...

2024-03-15 talkingdev

评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而，一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法，同时减轻污染问题。

2024-03-08 talkingdev

评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大，有些超过14k个示例，这导致评估成本和噪声很高。这项工作表明，您可以可靠地评估流行基准测试中的语言模型性能，只需使用100个示例即可。