漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-01-23 talkingdev

MTU-Bench:全新基准测试评估LLM工具使用能力

近日,MTU-Bench作为一种全新的基准测试工具正式发布,旨在评估大型语言模型(LLMs)在不同场景下的工具使用能力。该基准测试通过多样化的任务设计,全面衡量LLMs在实际应用中的表现,特别是在复杂任务中调用外部工...

Read More
2024-11-18 talkingdev

MailCatcher推出简易SMTP服务器,邮件测试更便捷

MailCatcher是一款功能强大的邮件测试工具,它运行了一个超简单的SMTP服务器。用户可以通过这个SMTP服务器发送测试邮件,无需实际发送到接收者的邮箱中。MailCatcher能够捕获并存储发送的邮件内容,方便开发者在开发...

Read More
2024-08-06 talkingdev

如何利用Playwright追踪商品价格

最近,越来越多的消费者开始使用数字工具跟踪商品价格,以便在购物时节省资金。Playwright是一款新兴的自动化测试工具,现在也可以用于跟踪网上超市的价格。 使用Playwright,用户可以编写自动化脚本,以定期检查商...

Read More
2024-07-10 talkingdev

Maelstrom:跨平台微容器测试工具套件发布

Maelstrom是一个用于在本地或分布式大型集群中运行测试的工具套件,支持在隔离的微容器中进行测试。目前,它已经提供了针对Rust和Python的测试运行器,并计划陆续增加对更多编程语言的支持。Maelstrom以其高可靠性、...

Read More
2024-07-03 talkingdev

Mutahunter:开源语言无关的LLM基础突变测试工具

近日,一款名为Mutahunter的开源LLM基础突变测试工具在GitHub上公开。这款工具是语言无关的,可以广泛应用于自动化软件测试。Mutahunter的核心功能是通过LLM基础的突变测试,帮助开发者在自动化软件测试过程中,找到...

Read More
2024-06-28 talkingdev

论文:材料科学领域的语言模型

MatText是一套专为评估材料科学中语言模型性能的基准测试工具和数据集。这套工具和数据集的设计目标,是使研究者能够更有效地理解和评估语言模型在材料科学应用中的表现。语言模型在材料科学中的应用,可以帮助科学...

Read More
2024-06-25 talkingdev

揭秘开发团队内部有哪些成功的自动化工具

在自动化技术领域,团队成功的关键在于定制化工具的开发。本文介绍了开发者们创建或见证的一系列内部工具,这些工具在自动化进程中起到了显著的推动作用。其中包括一个能在短短3小时内执行230项测试的测试执行工具,...

Read More
2024-04-10 talkingdev

Chemistry Bench:针对语言模型的化学问题测试基准

近日,GitHub上发布了一项新的基准测试工具——化学工作台(Chemistry Bench),旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容,能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page