news 2026/6/22 18:39:42

ragas官方文档中文版(二十六)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ragas官方文档中文版(二十六)

评估一个简单的 RAG 系统

在本教程中,我们将编写一个简单的评估管道来评估 RAG(检索增强生成,Retrieval-Augmented Generation)系统。本教程结束时,您将学会如何使用评估驱动开发(evaluation-driven development)来评估和迭代 RAG 系统。


我们将从编写一个简单的 RAG 系统开始,该系统从语料库中检索相关文档,并使用 LLM 生成答案。

python -m ragas_examples.rag_eval.rag

接下来,我们将为 RAG 系统编写几个示例查询和预期输出,然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"query":"What is Ragas 0.3?","grading_notes":"- Ragas 0.3 is a library for evaluating LLM applications."},{"query":"How to install Ragas?","grading_notes":"- install from source - install from pip using ragas[examples]"},{"query":"What are the main features of Ragas?","grading_notes":"organised around - experiments - datasets - metrics."}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

为了评估 RAG 系统的性能,我们将定义一个基于 LLM 的指标,该指标将 RAG 系统的输出与评分标准(grading_notes)进行比较,并据此输出通过(pass)或失败(fail)。

fromragas.metricsimportDiscreteMetric my_metric=DiscreteMetric(name="correctness",prompt="Check if the response contains points mentioned from the grading notes and return 'pass' or 'fail'.\nResponse: {response} Grading Notes: {grading_notes}",allowed_values=["pass","fail"],)

接下来,我们将编写实验循环,在测试数据集上运行 RAG 系统,使用该指标进行评估,并将结果存储在 CSV 文件中。

@experiment()asyncdefrun_experiment(row):response=rag_client.query(row["query"])score=my_metric.score(llm=llm,response=response.get("answer"," "),grading_notes=row["grading_notes"])experiment_view={**row,"response":response.get("answer",""),"score":score.value,"log_file":response.get("logs"," "),}returnexperiment_view

现在,每当您对 RAG 管道进行修改时,都可以运行实验,观察它如何影响 RAG 的性能。

端到端运行示例

  1. 设置 OpenAI API 密钥
export OPENAI_API_KEY="your_openai_api_key"
  1. 运行评估
python -m ragas_examples.rag_eval.evals

完成!您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 18:36:27

Windows10Debloater:3分钟彻底清理Windows预装软件的开源神器

Windows10Debloater:3分钟彻底清理Windows预装软件的开源神器 【免费下载链接】Windows10Debloater Script to remove Windows 10 bloatware. 项目地址: https://gitcode.com/gh_mirrors/wi/Windows10Debloater 你是否曾为新电脑开机后,发现桌面和…

作者头像 李华
网站建设 2026/6/22 18:33:11

终极SQLite数据库编辑器:在VSCode中像Excel一样编辑SQLite数据库

终极SQLite数据库编辑器:在VSCode中像Excel一样编辑SQLite数据库 【免费下载链接】sqlite3-editor 项目地址: https://gitcode.com/gh_mirrors/sq/sqlite3-editor 还在为管理SQLite数据库而烦恼吗?每次都要打开独立的数据库客户端,编…

作者头像 李华
网站建设 2026/6/22 18:30:52

解锁三大核心功能:让你的鸣潮游戏体验更流畅智能

解锁三大核心功能:让你的鸣潮游戏体验更流畅智能 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 你是否曾因《鸣潮》游戏画面卡顿而错过精彩战斗瞬间?是否在多账号切换时感到繁琐不…

作者头像 李华
网站建设 2026/6/22 18:28:38

Wildberries vs Ozon vs Yandex Market:2026年俄罗斯电商平台怎么选?

近年来,俄罗斯电商市场保持较高增长速度,逐渐成为不少出海卖家关注的新兴市场。对于计划进入俄罗斯市场的运营者来说,Wildberries、Ozon 和 Yandex Market 是最常被讨论的三个平台。本文主要从平台定位、运营成本以及实际运营角度&#xff0c…

作者头像 李华