漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

DeepEval,开源LLM应用评估框架

talkingdev • 2023-12-19

793832 views

DeepEval是一款全能的LLM应用评估框架,可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标,如幻觉、摘要、G-Eval、RAGAS等,供用户以Pytest样式或组件化方式评估整个数据集。

核心要点

  • DeepEval是一款全能的LLM应用评估框架
  • DeepEval提供了14+种评估指标
  • DeepEval可以以Pytest样式或组件化方式评估整个数据集

Read more >