模型性能的相关内容 - 漫话开发者

2024-03-08 talkingdev

Inflection新模型，个人助手Pi性能大幅提升

Inflection近日推出了一款新模型，为其个人助手Pi提供支持。该模型表现与GPT-4相当，在基准测试中具备出色的推理能力，达到了94%的成绩。Inflection声称，相对于GPT-4，该模型训练所需的计算资源仅占40%。有意思的是...

2024-03-07 talkingdev

MobileClip是一个快速的文本和图像模型，与OpenAI的原始CLIP模型性能相同，但运行速度提高了7倍。它可以在设备上用于各种视觉和语言任务。

2024-03-04 talkingdev

随着人工智能模型的不断发展，越来越多的研究人员开始研究如何在不影响模型准确性的前提下，提高模型的计算效率和内存利用率。LLM量化是一种后训练量化技术，可以使像OPT和LLaMA2这样的大型语言模型更具内存和计算效...

2024-03-01 talkingdev

Big Code项目发布了旗舰编码模型的另一个版本StarCoder v2。该模型具有16k上下文窗口，经过4T令牌的训练，性能强劲，但仍然低于DeepSeek编码器。StarCoder v2将在程序员社区和人工智能研究领域引起轰动，标志着Big C...

2024-02-26 talkingdev

去年，Mozilla担任了效率挑战的可扩展评估者。它确保参赛者遵守比赛规则并评估模型性能。这篇文章是语言模型评估和竞争性训练方案的良好介绍。本次比赛对推动自然语言处理技术的发展具有重要意义。

2024-02-22 talkingdev

知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是，它让GPT-4的表现在大多数其他基准之上。据了解，这个基准是基于多个指标和任务，包括自然语言推理和问答等。

2024-02-12 talkingdev

HuggingFace发布了一个轻量级的评估库lighteval，用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标，帮助用户快速准确地评估模型性能。同时，lighteval还提供了丰富的...

2024-01-24 talkingdev

LoRA是一种低秩适配器，可让您仅微调语言模型中的少量参数。它们可以显着改善和改变这些模型的性能。