漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-19 talkingdev

DeepEval,开源LLM应用评估框架

DeepEval是一款全能的LLM应用评估框架,可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标,如幻觉、摘要、G-Eval、RAGAS等,供用户以Pytest样式或组件化方式评估整个数据集。

Read More
2023-09-26 talkingdev

深度评估:DeepEval帮助您安心部署LLM流水线

DeepEval是一个提供Pythonic方式进行离线评估的工具,专为LLM(语言模型)流水线设计。使用DeepEval,开发者能够在部署到生产环境之前,对其LLM流水线进行深度和全面的评估。这大大降低了生产环境中出现错误的风险,...

Read More
2023-08-18 talkingdev

DeepEval:为您的LLM流水线提供离线评估

DeepEval 是一个提供 Pythonic 方式进行离线评估的工具,可以帮助您方便地将 LLM 流水线投入生产。LLM 流水线是一种机器学习模型开发流程,通过使用 DeepEval,开发者可以在不连接网络的情况下,对其进行评估和优化...

Read More