新LLM基准发布：GPT-4表现超前于其他基准

talkingdev • 2024-02-22

606874 views

知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是，它让GPT-4的表现在大多数其他基准之上。据了解，这个基准是基于多个指标和任务，包括自然语言推理和问答等。