模型训练的相关内容 - 漫话开发者

2024-02-12 talkingdev

HF开源轻量级评估库 lighteval

HuggingFace发布了一个轻量级的评估库lighteval，用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标，帮助用户快速准确地评估模型性能。同时，lighteval还提供了丰富的...

2024-02-08 talkingdev

GitHub仓库发布了一个名为DeepSeekMath 7B的语言模型，专门设计用于解决复杂的数学问题。该模型训练了大量以数学为重点的内容，它可以理解数学问题的语法和语义，并根据其推理出答案。DeepSeekMath 7B是一个重要的AI...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-02-02 talkingdev

Weaver是一系列专门用于讲述故事的模型。最大的模型（34B参数）在故事讲述基准测试中表现优于GPT-4。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-02-01 talkingdev

在训练语言模型时，一个挑战是为任务找到足够多样化的数据集。更难的是，将这些数据可视化。这个很酷的工具使用快速聚类和主题建模，使得可以探索数据，以改善过滤和整体质量。

2024-01-31 talkingdev

Meta的新模型已经在大量代码上进行了精调和指令调整。它们在HumanEval测试中表现出色，在某些方面接近于GPT-4。这些模型可在Meta许可下和HuggingFace上使用。