漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-21 talkingdev

开源框架DeepEval助力大型语言模型系统评估

DeepEval是一个开源框架,专注于评估和测试大型语言模型系统。它整合了最新的研究成果,通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...

Read More
2023-12-19 talkingdev

DeepEval,开源LLM应用评估框架

DeepEval是一款全能的LLM应用评估框架,可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标,如幻觉、摘要、G-Eval、RAGAS等,供用户以Pytest样式或组件化方式评估整个数据集。

Read More
2023-09-26 talkingdev

深度评估:DeepEval帮助您安心部署LLM流水线

DeepEval是一个提供Pythonic方式进行离线评估的工具,专为LLM(语言模型)流水线设计。使用DeepEval,开发者能够在部署到生产环境之前,对其LLM流水线进行深度和全面的评估。这大大降低了生产环境中出现错误的风险,...

Read More
2023-08-18 talkingdev

DeepEval:为您的LLM流水线提供离线评估

DeepEval 是一个提供 Pythonic 方式进行离线评估的工具,可以帮助您方便地将 LLM 流水线投入生产。LLM 流水线是一种机器学习模型开发流程,通过使用 DeepEval,开发者可以在不连接网络的情况下,对其进行评估和优化...

Read More