数据驱动的LLM应用评估框架：模块化、可定位与持续优化-编程阁

1. 项目概述：为什么我们需要一个数据驱动的LLM应用评估框架？

如果你正在构建或维护一个基于大语言模型的应用，无论是RAG问答系统、代码生成助手还是智能客服，一个绕不开的核心问题就是：我怎么知道它到底好不好用？这个问题看似简单，实则复杂。传统的“人工抽查”或“感觉还行”已经无法满足生产级应用的需求。尤其是在LLM应用通常由检索、重排、生成等多个模块串联而成时，一个笼统的“回答质量”评分，根本无法告诉你问题出在哪个环节——是检索没找到关键信息，还是LLM自己“胡编乱造”了？

这正是continuous-eval这个开源框架要解决的核心痛点。它不是一个简单的“打分器”，而是一个数据驱动的、模块化的评估系统。它的设计哲学很明确：将复杂的LLM应用管道拆解成一个个独立的模块，为每个模块配备最合适的评估指标，从而实现对系统性能的精准“体检”和“病灶定位”。想象一下，你的RAG系统回答错误，通过continuous-eval，你可以立刻看到是“检索召回率”不足，还是“答案相关性”得分低，这种洞察力对于迭代优化至关重要。

这个框架适合所有正在严肃对待LLM应用质量的开发者、算法工程师和产品经理。无论你是想验证一个新模型的效果，还是想监控线上系统的性能衰减，或是进行A/B测试比较不同策略，continuous-eval提供了一套标准化、可复现的评估方案。接下来，我将带你深入拆解它的设计思路、核心功能，并分享如何将其融入你的开发流程。

2. 核心设计理念与架构拆解

2.1 模块化评估：从黑盒到白盒

大多数评估工具将整个LLM应用视为一个黑盒，输入问题，输出一个最终得分（比如答案正确率）。continuous-eval的核心突破在于其模块化评估理念。它允许你将应用管道定义为一组相互连接的模块。

以一个典型的三段式RAG管道为例：

检索器：根据问题从知识库中找出相关文档片段。
重排器：对检索结果进行精排，选出最相关的几个。
生成器：结合问题和精排后的上下文，生成最终答案。

在continuous-eval中，你可以为每个模块单独定义评估指标：

检索器：评估检索召回率、检索精确率，看它是否找到了所有正确答案片段。
重排器：评估平均倒数排名、归一化折损累计增益，看它是否把最好的结果排在了最前面。
生成器：评估答案正确性、答案相关性、有害性，看生成的答案是否准确、贴题且安全。

这种设计带来了巨大优势：可定位性。当整体答案质量下降时，你可以快速定位是哪个模块的性能出现了波动。比如，如果答案正确性下降但检索召回率稳定，那问题很可能出在生成器或重排器上，而不是知识库本身。

2.2 丰富的度量指标库：不止于正确率

continuous-eval内置了一个丰富的度量指标库，覆盖了主流LLM应用场景。这些指标大致可分为三类，理解它们的区别对于正确选用至关重要：

确定性指标：基于精确匹配或规则计算，结果稳定、可复现、零成本。
- 典型代表：PrecisionRecallF1（用于检索）、ExactMatch（用于分类）。
- 适用场景：评估客观事实的检索、简单的文本匹配任务。例如，检查生成的代码中是否包含了某个必须的函数名。
语义指标：基于嵌入模型计算文本之间的语义相似度。
- 典型代表：AnswerSimilarity（使用嵌入模型计算答案与标准答案的余弦相似度）。
- 适用场景：评估答案的语义是否接近，允许表达上的差异。比精确匹配更灵活，但依赖于嵌入模型的质量。
LLM即评委指标：使用一个LLM（如GPT-4）作为裁判，根据定制化的准则和评分标准进行评估。
- 典型代表：AnswerCorrectness、AnswerRelevancy。
- 适用场景：评估开放性、需要推理和判断的任务质量。这是最灵活、也最接近人类判断的方式，但成本高、速度慢，且可能受评委模型本身偏见的影响。

continuous-eval允许你在一个评估流水线中混合使用这三类指标。例如，对检索模块使用低成本的确定性指标进行频繁监控，而对最终答案质量定期使用LLM即评委指标进行深度评估。

2.3 概率性评估：拥抱不确定性

LLM的本质是概率模型，其输出具有不确定性。传统的“单次评估”可能因为LLM的随机性而产生偏差。continuous-eval引入了概率性评估的概念。对于LLM即评委这类指标，它可以配置为对同一个样本进行多次评估（例如，让GPT-4评判5次），然后统计得分的分布（如平均分、方差）。

这带来了两个好处：

结果更稳健：通过多次采样，平滑单次评估可能出现的异常评分，得到更可靠的性能估计。
评估不确定性：得分的方差本身就是一个重要的信号。高方差可能意味着该评估准则模糊不清，或者LLM评委对此类样本的判断本身就不稳定，提示你需要细化评估标准。

3. 从安装到第一个评估：快速上手实战

3.1 环境准备与安装

首先，确保你的Python环境在3.8以上。安装非常简单，直接使用pip：

pip install continuous-eval

如果你需要最新的开发版功能，或者想贡献代码，可以选择从源码安装：

git clone https://github.com/relari-ai/continuous-eval.git cd continuous-eval # 推荐使用poetry管理依赖 pip install poetry poetry install --all-extras

关键一步：配置LLM API密钥。框架中所有LLM即评委的指标都需要调用外部LLM API（如OpenAI, Anthropic）。你需要创建一个.env文件在项目根目录，并填入你的密钥。参考项目中的.env.example文件格式：

# .env 文件示例 OPENAI_API_KEY=sk-your-openai-key-here ANTHROPIC_API_KEY=your-anthropic-key-here # 框架会按顺序尝试使用可用的API

注意：将.env文件添加到你的.gitignore中，切勿将密钥提交到版本控制系统。

3.2 运行你的第一个单一指标

让我们从一个最简单的例子开始，直观感受一下如何计算一个指标。假设我们评估检索系统的一条数据：

from continuous_eval.metrics.retrieval import PrecisionRecallF1 # 单条数据样本 datum = { "question": "爱因斯坦在哪年获得了诺贝尔奖？", "retrieved_context": [ "阿尔伯特·爱因斯坦于1921年因对理论物理的贡献，特别是发现光电效应定律而获得诺贝尔物理学奖。", "爱因斯坦出生于德国乌尔姆，是现代物理学之父。" ], "ground_truth_context": ["爱因斯坦于1921年获得诺贝尔物理学奖。"], "answer": "1921年", "ground_truths": ["1921年"], } # 初始化精确率、召回率、F1指标计算器 metric = PrecisionRecallF1() # 计算指标 result = metric(**datum) print(result)

运行这段代码，你会得到一个类似这样的字典输出：

{ 'context_precision': 0.5, # 检索到的两条上下文中，只有一条是相关的 'context_recall': 1.0, # 唯一的相关上下文被检索到了 'context_f1': 0.6666666666666666 }

这个例子展示了如何对“检索”这个动作进行评估。PrecisionRecallF1是一个确定性指标，它只关心“检索到的文本”和“标准答案文本”之间的匹配关系。

3.3 构建完整的评估流程

单一指标的评估意义有限，我们通常需要对一个数据集进行批量评估，并可能设置一些通过性测试。下面是一个更完整的例子，评估一个检索数据集：

from time import perf_counter from continuous_eval.data_downloader import example_data_downloader from continuous_eval.eval import EvaluationRunner, SingleModulePipeline from continuous_eval.eval.tests import GreaterOrEqualThan from continuous_eval.metrics.retrieval import PrecisionRecallF1, RankedRetrievalMetrics def main(): # 1. 加载示例数据集（框架内置了一些用于演示的数据） dataset = example_data_downloader("retrieval") # 数据集通常是一个类似列表的对象，每个元素包含question, retrieved_contexts等字段 # 2. 构建评估管道 pipeline = SingleModulePipeline( dataset=dataset, # 定义要计算的指标 eval=[ PrecisionRecallF1().use( retrieved_context=dataset.retrieved_contexts, ground_truth_context=dataset.ground_truth_contexts, ), RankedRetrievalMetrics().use( # 增加排序质量评估 retrieved_context=dataset.retrieved_contexts, ground_truth_context=dataset.ground_truth_contexts, ), ], # 定义测试标准（断言） tests=[ GreaterOrEqualThan( test_name="高召回率要求", metric_name="context_recall", # 测试 context_recall 这个指标 min_value=0.8 # 要求召回率不低于0.8 ), ], ) # 3. 运行评估 runner = EvaluationRunner(pipeline) print("开始评估...") tic = perf_counter() eval_results = runner.evaluate() # 核心评估调用 toc = perf_counter() # 4. 查看结果 print("\n评估指标汇总（平均值）:") aggregated_results = eval_results.aggregate() print(aggregated_results) print(f"\n总耗时: {toc - tic:.2f} 秒") # 5. 运行测试 print("\n运行测试断言...") test_results = runner.test(eval_results) print(test_results) # 如果 context_recall 低于0.8，对应的测试会显示失败 if __name__ == "__main__": # 重要：使用多进程时，必须将主逻辑放在 if __name__ == "__main__": 下 main()

在这个流程中，EvaluationRunner是 orchestrator（协调器），它负责并行化计算所有样本的所有指标，非常高效。SingleModulePipeline定义了一个简单的评估任务。GreaterOrEqualThan是一个“测试”，它允许你为指标设定性能门槛，自动化判断评估结果是否达标。

4. 进阶应用：评估多模块复杂管道

真实世界的LLM应用很少是单一模块。continuous-eval的威力在评估多模块管道时才能真正展现。下面我们构建一个评估“检索->重排->生成”三步RAG管道的示例。

4.1 定义模块化管道

首先，我们需要理解几个核心概念：

Dataset: 你的评估数据集，包含输入问题、各模块的标准答案（Ground Truth）等。
Module: 代表管道中的一个处理步骤，有输入、输出，以及属于自己的评估指标列表。
Pipeline: 将多个Module按照依赖关系连接起来。
ModuleOutput: 一个工具类，用于从上游模块的输出中提取当前评估指标所需的具体字段。

from typing import Any, Dict, List from continuous_eval.data_downloader import example_data_downloader from continuous_eval.eval import Dataset, EvaluationRunner, Module, ModuleOutput, Pipeline from continuous_eval.metrics.generation.text import AnswerCorrectness from continuous_eval.metrics.retrieval import PrecisionRecallF1, RankedRetrievalMetrics def page_content(docs: List[Dict[str, Any]]) -> List[str]: """一个简单的提取函数：从文档字典列表中提取‘page_content’字段。""" return [doc.get("page_content", "") for doc in docs] def main(): # 加载数据集和管道运行结果 # 假设我们有一个数据集，和一份之前运行管道时保存的中间结果日志 dataset: Dataset = example_data_downloader("graham_essays/small/dataset") pipeline_results: Dict = example_data_downloader("graham_essays/small/results") # 1. 定义检索器模块 retriever = Module( name="retriever", input=dataset.question, # 输入是问题 output=List[str], # 输出是字符串列表（检索到的文本） eval=[ # 该模块的评估指标 PrecisionRecallF1().use( # 指标需要‘retrieved_context’参数，我们从模块的输出中获取 # 这里假设输出直接就是文本列表，所以用 ModuleOutput() 直接传递 retrieved_context=ModuleOutput(), ground_truth_context=dataset.ground_truth_context, ), ], ) # 2. 定义重排器模块 reranker = Module( name="reranker", input=retriever, # 输入是上游的retriever模块 output=List[Dict[str, str]], # 输出是字典列表（带分数的文档） eval=[ RankedRetrievalMetrics().use( # 指标需要‘retrieved_context’，但上游输出是字典列表。 # 我们使用提取函数 page_content 来获取需要的字段。 retrieved_context=ModuleOutput(page_content), ground_truth_context=dataset.ground_truth_context, ), ], ) # 3. 定义LLM生成器模块 llm = Module( name="llm", input=reranker, # 输入是重排后的文档 output=str, # 输出是最终答案字符串 eval=[ AnswerCorrectness().use( question=dataset.question, answer=ModuleOutput(), # 直接使用模块的输出作为答案 ground_truth_answers=dataset.ground_truth_answers, ), ], ) # 4. 组装管道 pipeline = Pipeline([retriever, reranker, llm], dataset=dataset) # 可视化管道（输出Mermaid格式图表，可在支持的工具中渲染） print("管道结构：") print(pipeline.graph_repr()) # 5. 运行评估（基于已有的管道运行结果） runner = EvaluationRunner(pipeline) # 这里我们不是重新运行管道，而是用之前记录的结果进行评估 eval_results = runner.evaluate(pipeline_results) # 6. 查看各模块的评估结果 aggregated = eval_results.aggregate() print("\n=== 模块级评估结果 ===") for module_name, metrics in aggregated.items(): print(f"\n模块 [{module_name}]:") for metric_name, value in metrics.items(): print(f" - {metric_name}: {value:.4f}") if __name__ == "__main__": main()

这个示例的关键在于ModuleOutput()的使用。它建立了模块实际输出与评估指标所需输入之间的桥梁。当模块的输出格式与指标输入要求不完全匹配时，你可以传入一个提取函数（如page_content）来进行转换。

4.2 理解评估结果

运行上述代码后，你会得到分模块的评估报告。例如：

retriever模块：context_precision: 0.75, context_recall: 0.90
reranker模块：NDCG@3: 0.85, MRR: 0.80
llm模块：answer_correctness: 0.92

这份报告清晰地告诉你：检索的召回率不错（0.9），但精确率一般（0.75），意味着找回了大部分答案，但也掺杂了不少无关内容。重排器有效提升了排名质量（NDCG@3 0.85）。最终生成答案的正确性很高（0.92）。如果整体答案质量下降，你可以迅速对比历史数据，看是哪个模块的指标发生了显著变化。

5. 定制化与扩展：打造你自己的评估指标

虽然continuous-eval提供了丰富的内置指标，但实际业务中总会有独特的评估需求。框架提供了灵活的定制化方式。

5.1 使用`CustomMetric`快速创建LLM即评委指标

这是最简单的方式，适用于基于自然语言准则的评估。

from continuous_eval.metrics.base.metric import Arg, Field from continuous_eval.metrics.custom import CustomMetric from typing import List # 1. 定义评估准则和评分标准 criteria = "评估答案是否完全基于提供的上下文生成，没有引入外部知识或编造信息。" rubric = """请根据以下标准评分： - 是：答案中的所有关键事实和细节都能在提供的上下文中找到明确依据。 - 部分：答案主要基于上下文，但包含少量未在上下文中提及的、无害的推断或通用陈述。 - 否：答案包含了上下文中不存在的重要事实、数据或细节（即编造）。""" # 2. 创建自定义指标 faithfulness_metric = CustomMetric( name="基于上下文的忠实度", criteria=criteria, rubric=rubric, arguments={ "question": Arg(type=str, description="用户提出的问题。"), "context": Arg(type=str, description="提供给模型生成答案的上下文。"), "answer": Arg(type=str, description="模型生成的答案。") }, response_format={ "reasoning": Field(type=str, description="评分理由。"), "score": Field(type=str, description="评分结果：是/部分/否"), "hallucinated_parts": Field(type=List[str], description="答案中编造的部分，如果没有则留空列表。"), }, ) # 3. 使用指标 test_datum = { "question": "苹果公司最新款手机是什么？", "context": "截至2023年10月，苹果公司最新发布的手机是iPhone 15系列。", "answer": "苹果公司最新款手机是iPhone 15 Pro Max，它采用了钛合金边框。" } result = faithfulness_metric(**test_datum) print(result) # 可能输出：{'reasoning': '上下文只提到了iPhone 15系列，未提及Pro Max或钛合金边框。', 'score': '否', 'hallucinated_parts': ['iPhone 15 Pro Max', '钛合金边框']}

CustomMetric会自动处理与LLM API的交互、提示词构建和结果解析，你只需要关心评估逻辑的定义。

5.2 继承`Metric`基类实现复杂指标

对于需要复杂计算逻辑（非LLM评判）的指标，你可以通过继承Metric基类来实现。

from typing import Dict, Any from continuous_eval.metrics.base import Metric class MyCustomBERTScoreMetric(Metric): """一个自定义的、使用BERTScore计算答案相似度的指标示例。""" def __init__(self, model_type: str = "bert-base-uncased"): super().__init__() self.model_type = model_type # 延迟加载，避免在初始化时加载大模型 self._bertscorer = None @property def bertscorer(self): if self._bertscorer is None: # 在实际实现中，这里会导入bert_score并初始化P, R, F1 # from bert_score import BERTScorer # self._bertscorer = BERTScorer(model_type=self.model_type, lang="en") pass return self._bertscorer def calculate(self, answer: str, ground_truth: str, **kwargs) -> Dict[str, Any]: """核心计算方法。""" # 这里简化了BERTScore的实际调用 # P, R, F1 = self.bertscorer.score([answer], [ground_truth]) # 假设我们得到了一个F1值 simulated_f1 = 0.87 # 模拟值 return { "bert_score_f1": simulated_f1, } # 使用方式 metric = MyCustomBERTScoreMetric() result = metric.calculate(answer="The capital of France is Paris.", ground_truth="Paris is France's capital.") print(result) # {'bert_score_f1': 0.87}

通过继承Metric，你可以完全控制计算过程，集成任何第三方库或内部算法。

6. 实战经验：避坑指南与最佳实践

在实际项目中集成continuous-eval一段时间后，我总结了一些关键的经验和容易踩的坑。

6.1 数据集构建的黄金法则

评估的质量上限取决于你的数据集。一个糟糕的数据集会让你所有的评估工作失去意义。

质量优于数量：100条精心构建、覆盖核心场景和边缘案例的数据，远比10000条随机爬取的数据有用。优先确保每条数据的“标准答案”是准确、无歧义的。
标注“过程真值”：对于模块化评估，你不仅需要最终答案的真值，还需要中间过程的真值。例如，对于RAG系统，你需要为每个问题标注：
1. ground_truth_contexts: 知识库中哪些片段是真正相关的（用于评估检索）。
2. ground_truth_answers: 期望的最终答案（用于评估生成）。
覆盖多样性：数据应覆盖不同的提问方式（简单、复杂、多跳）、不同的主题领域、以及常见的“负样本”（如无法回答的问题、有歧义的问题）。

6.2 指标选择的艺术

不要试图用一个指标衡量一切。合理的指标组合是关键。

分层评估：
- 底层：对检索、重排等模块，使用确定性或语义指标。它们速度快、成本低，适合集成到CI/CD流水线中，每次代码提交都运行。
- 顶层：对最终答案，使用LLM即评委指标。它们更接近人类判断，但成本高、速度慢，适合每日或每周的定期评估。
警惕指标陷阱：
- 精确率/召回率的局限性：在检索中，如果ground_truth_contexts标注不完整，召回率会虚低。确保真值标注尽可能全面。
- LLM评委的偏见：不同的评委模型（GPT-4, Claude, Gemini）可能给出不同的评分。建议固定使用一个模型作为评委，并在变更时进行校准。对于关键评估，可以考虑使用多个评委并取平均分。
- 语义相似度的“宽容”：AnswerSimilarity可能给一个语义相关但事实错误的答案高分。它更适合评估流畅性和相关性，而非事实正确性。

6.3 性能与成本优化

当数据集很大时，评估可能变得昂贵且耗时。

并行化评估：EvaluationRunner默认使用多进程并行计算。确保你的代码主入口在if __name__ == "__main__":下，这是Python多进程的要求。
采样评估：对于大规模数据集，不必每次都全量评估。可以定期（如每周）进行全量评估，而在日常开发中，使用一个固定的、有代表性的开发集进行快速验证。
缓存LLM调用：LLM即评委的API调用是主要成本。continuous-eval目前没有内置缓存，但你可以自己实现一个简单的缓存层，对相同的(prompt, parameters)对缓存结果，尤其是在迭代开发、代码未变仅数据变时，能节省大量成本。
使用轻量级评委：对于非关键性或初步评估，可以考虑使用更便宜、更快的模型作为评委，如gpt-3.5-turbo，虽然判断质量可能稍逊于gpt-4。

6.4 集成到开发流程

将评估框架无缝集成到你的MLOps流程中，才能发挥最大价值。

本地开发：在实现一个新的检索策略或提示词后，立即在开发集上运行评估，获得量化反馈。
CI/CD流水线：在Git的Pull Request中，自动运行关键模块的确定性指标评估（如检索召回率）。设置一个性能门槛，如果新代码导致指标显著下降，则阻止合并。
实验追踪：将每次评估的结果（包括所有模块的指标、数据集版本、代码版本、模型版本）记录到实验管理工具（如MLflow, Weights & Biases）中。这是进行A/B测试和衡量长期进展的基础。
生产监控：虽然continuous-eval主要用于离线评估，但其思想可以延伸到在线监控。你可以定期从生产日志中采样数据，构建一个“影子”评估流水线，监控线上系统各项指标的变化趋势，及时发现性能衰减。

7. 常见问题与排查实录

在实际使用中，你可能会遇到一些典型问题。这里记录了我遇到的一些情况及解决方法。

问题一：运行评估时出现序列化错误（Pickling Error）。

现象：在使用EvaluationRunner进行多进程评估时，报错Can't pickle ...。
原因：Python多进程要求传递给子进程的对象必须是可序列化的。自定义的类、lambda函数、本地函数等如果定义在__main__作用域之外或结构复杂，可能导致此问题。
解决：
1. 确保评估启动代码在if __name__ == "__main__":块内。
2. 避免在定义指标（如CustomMetric的arguments或提取函数）时使用lambda或复杂的本地函数。将它们定义为模块顶层的普通函数。
3. 检查自定义的Metric子类，确保其属性和方法都是可序列化的。

问题二：LLM即评委指标返回None或格式错误。

现象：CustomMetric调用后返回None，或解析响应时出错。
原因：
1. API密钥未正确设置或额度不足。
2. LLM（如GPT-4）没有严格遵守指定的输出格式（JSON）。
3. 网络超时。
解决：
1. 检查.env文件，确认密钥有效。可以在代码中先直接调用OpenAI API测试。
2. 在CustomMetric中，rubric的指令必须极其清晰，明确要求输出JSON。可以加入“你必须输出一个合法的JSON对象，仅此而已”等强约束。
3. 实现重试机制和更健壮的响应解析。continuous-eval的底层LLM调用器可能已有重试逻辑，检查其日志。

问题三：模块化评估时，ModuleOutput提取函数报错。

现象：KeyError或AttributeError，提示找不到字段。
原因：管道实际运行结果的字段结构与你在ModuleOutput中假设的不一致。例如，你假设reranker的输出是List[Dict]且每个字典有page_content键，但实际运行结果中键名可能是content。

解决：

仔细检查管道运行日志：打印出pipeline_results中对应模块的一两条实际输出样本，确认其数据结构。
编写健壮的提取函数：在提取函数中使用.get()方法提供默认值，或增加类型检查。

def safe_page_content(docs): contents = [] for doc in docs: # 尝试多个可能的键名 content = doc.get("page_content") or doc.get("content") or doc.get("text") if content is not None: contents.append(content) else: contents.append("") # 或记录警告 return contents

问题四：评估结果与人工判断不一致。

现象：指标显示系统性能很好，但人工抽查发现答案质量很差。
原因：
1. 数据集偏差：评估数据集过于简单或未能覆盖真实场景中的难点。
2. 指标选择不当：例如，只用AnswerSimilarity评估事实正确性，而它更擅长评估语义相似度。
3. 真值标注质量差：ground_truth本身有错误或不完整。
解决：
1. 进行人工误差分析：随机抽取一些评估样本，尤其是低分样本，人工检查问题出在哪里。是标注错了？还是指标没捕捉到关键缺陷？
2. 迭代数据集和指标：根据误差分析结果，修正数据集标注，或者引入新的、更有针对性的评估指标（如针对事实正确性的Faithfulness指标）。
3. 采用多指标综合评估：不要依赖单一指标。结合使用事实正确性、相关性、有害性、信息完整性等多个维度进行综合判断。

continuous-eval是一个强大的工具，但它不是银弹。它提供的是一套科学的测量方法，而如何设计实验（构建数据集、选择指标）、如何解读数据、如何采取行动，仍然依赖于开发者的经验和智慧。将它作为你迭代优化LLM应用过程中的“仪表盘”，结合深入的人工分析，才能真正驱动系统性能的持续提升。

数据驱动的LLM应用评估框架：模块化、可定位与持续优化

1. 项目概述：为什么我们需要一个数据驱动的LLM应用评估框架？

2. 核心设计理念与架构拆解

2.1 模块化评估：从黑盒到白盒

2.2 丰富的度量指标库：不止于正确率

2.3 概率性评估：拥抱不确定性

3. 从安装到第一个评估：快速上手实战

3.1 环境准备与安装

3.2 运行你的第一个单一指标

3.3 构建完整的评估流程

4. 进阶应用：评估多模块复杂管道

4.1 定义模块化管道

4.2 理解评估结果

5. 定制化与扩展：打造你自己的评估指标

5.1 使用`CustomMetric`快速创建LLM即评委指标

5.2 继承`Metric`基类实现复杂指标

6. 实战经验：避坑指南与最佳实践

6.1 数据集构建的黄金法则

6.2 指标选择的艺术

6.3 性能与成本优化

6.4 集成到开发流程

7. 常见问题与排查实录

AI智能体大师技能库：从架构设计到工程实践全解析

手游需要什么样的服务器，该关注哪些方面

HTML标签

MCP 2026安全漏洞实时修复：3类高危场景下＜90秒自动闭环的5层熔断机制详解

Gemini 3.1 Pro镜像站技术架构升级解析——给开发者的能力变化速览

构建命令行记忆系统：从原理到实践，打造个人终端知识库

1. 项目概述：为什么我们需要一个数据驱动的LLM应用评估框架？

2. 核心设计理念与架构拆解

2.1 模块化评估：从黑盒到白盒

2.2 丰富的度量指标库：不止于正确率

2.3 概率性评估：拥抱不确定性

3. 从安装到第一个评估：快速上手实战

3.1 环境准备与安装

3.2 运行你的第一个单一指标

3.3 构建完整的评估流程

4. 进阶应用：评估多模块复杂管道

4.1 定义模块化管道

4.2 理解评估结果

5. 定制化与扩展：打造你自己的评估指标

5.1 使用CustomMetric快速创建LLM即评委指标

5.2 继承Metric基类实现复杂指标

6. 实战经验：避坑指南与最佳实践

6.1 数据集构建的黄金法则

6.2 指标选择的艺术

6.3 性能与成本优化

6.4 集成到开发流程

7. 常见问题与排查实录

AI智能体大师技能库：从架构设计到工程实践全解析

手游需要什么样的服务器，该关注哪些方面

HTML标签

MCP 2026安全漏洞实时修复：3类高危场景下＜90秒自动闭环的5层熔断机制详解

Gemini 3.1 Pro镜像站技术架构升级解析——给开发者的能力变化速览

构建命令行记忆系统：从原理到实践，打造个人终端知识库

5.1 使用`CustomMetric`快速创建LLM即评委指标

5.2 继承`Metric`基类实现复杂指标