漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-15 talkingdev

LiveCodeBench:对大型编程语言模型进行全面无污染的评估

评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而,一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法,同时减轻污染问题。

Read More
2023-08-28 talkingdev

精调版Llama编码模型在编码基准测试上超过GPT-4

拥有海量高质量内部数据的公司已发布了精调版Llama,它在编码方面的能力非常高。这是在Meta发布其新的编程语言模型后的几天内完成的。重要的是要注意,当前GPT-4的版本在编码方面仍然优于任何开源模型。本文将新的Ll...

Read More