近日,MTU-Bench作为一种全新的基准测试工具正式发布,旨在评估大型语言模型(LLMs)在不同场景下的工具使用能力。该基准测试通过多样化的任务设计,全面衡量LLMs在实际应用中的表现,特别是在复杂任务中调用外部工...
Read MoreMailCatcher是一款功能强大的邮件测试工具,它运行了一个超简单的SMTP服务器。用户可以通过这个SMTP服务器发送测试邮件,无需实际发送到接收者的邮箱中。MailCatcher能够捕获并存储发送的邮件内容,方便开发者在开发...
Read More最近,越来越多的消费者开始使用数字工具跟踪商品价格,以便在购物时节省资金。Playwright是一款新兴的自动化测试工具,现在也可以用于跟踪网上超市的价格。 使用Playwright,用户可以编写自动化脚本,以定期检查商...
Read MoreMaelstrom是一个用于在本地或分布式大型集群中运行测试的工具套件,支持在隔离的微容器中进行测试。目前,它已经提供了针对Rust和Python的测试运行器,并计划陆续增加对更多编程语言的支持。Maelstrom以其高可靠性、...
Read More近日,一款名为Mutahunter的开源LLM基础突变测试工具在GitHub上公开。这款工具是语言无关的,可以广泛应用于自动化软件测试。Mutahunter的核心功能是通过LLM基础的突变测试,帮助开发者在自动化软件测试过程中,找到...
Read MoreMatText是一套专为评估材料科学中语言模型性能的基准测试工具和数据集。这套工具和数据集的设计目标,是使研究者能够更有效地理解和评估语言模型在材料科学应用中的表现。语言模型在材料科学中的应用,可以帮助科学...
Read More在自动化技术领域,团队成功的关键在于定制化工具的开发。本文介绍了开发者们创建或见证的一系列内部工具,这些工具在自动化进程中起到了显著的推动作用。其中包括一个能在短短3小时内执行230项测试的测试执行工具,...
Read More近日,GitHub上发布了一项新的基准测试工具——化学工作台(Chemistry Bench),旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容,能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...
Read More