近日,知名开源社区Hugging Face对其HELMET基准测试进行了重要升级。这一更新不仅扩展了测试覆盖的模型范围,还提供了更深入的性能洞察,特别针对当前热门的Phi-4和Jamba 1.6等长上下文大语言模型(LLM)。HELMET基...
Read MoreGlasskube 是一款完全开源的 Kubernetes 包管理器,可以作为 Helm 的替代品。它提供了一个简单的命令行界面,允许您在 Kubernetes 群集上执行操作,例如部署、删除和升级应用程序。Glasskube 还提供了一个 Web 界面...
Read More人工智能作为当前最热门的技术之一,无时无刻不在我们的生活中发挥着作用。然而,一些科技公司和媒体过度宣传人工智能,使得人们开始感到疲惫和无助。与其一味地谈论人工智能,我们应该更加深入地了解这项技术,发掘...
Read More斯坦福大学语言建模团队发布了一项广泛使用的基准测试,名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本,名为HELM-Instruct。该测试是多维的、开放式的和绝对的。
Read MoreHuggingFace发布了一个轻量级的评估库lighteval,用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标,帮助用户快速准确地评估模型性能。同时,lighteval还提供了丰富的...
Read More