测试工具的相关内容 - 漫话开发者

2024-04-10 talkingdev

Chemistry Bench：针对语言模型的化学问题测试基准

近日，GitHub上发布了一项新的基准测试工具——化学工作台（Chemistry Bench），旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容，能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-01 talkingdev

EvoEval是一套全新的基准测试工具，专为评估大型语言模型（LLMs）的编码能力而设计。该测试套件采用了比以往更加严格的测试标准，以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...

2024-03-21 talkingdev

像Claude这样的大型语言模型(LLMs)能够为解析代码生成有效的模糊测试工具，这一过程传统上需要大量的人力投入。尽管LLMs通常在精确度上不足以进行静态分析，但它们似乎非常适合创建模糊测试工具，因为模糊测试的随机...

2024-01-29 talkingdev

近日，研发团队宣布推出了AgentBoard，一款专为多轮LLM代理设计的基准测试工具。AgentBoard不仅可以评估LLM代理的最终成功率，还提供了分析评估板以进行更详细的模型评估。这款工具可以更全面地评估LLM代理，为LLM代...

2023-08-28 talkingdev

科研人员已经开发出一种名为CALM的新测试，用来检查AI语言工具是否存在偏见。他们从不同的来源收集了大量的数据，并测试了各种AI模型，结果发现一些大型AI模型的偏见可能比较小的模型更严重。这一发现对于AI领域的研...

2023-08-25 talkingdev

自动视频生成作为一个新兴的研究领域，已经引起了广泛的关注。其中，故事延续、故事混搭等任务的衡量标准十分复杂。谷歌最新推出的视频生成基准测试工具，希望能帮助这一领域取得进一步的进展。通过这个基准测试，研...

2023-08-09 talkingdev

该项目引入了AgentBench，一个用于测试大型语言模型(LLMs)在各种交互环境中的基准工具。在对25个LLMs进行的初步测试中，结果显示商业模型的表现超过了开源模型。这项研究为我们理解和评估大型语言模型的交互性能提供...