别再只看排行榜了！手把手教你用Hugging Face Transformers跑通MMLU基准测试（附完整代码）-编程阁

从零实现MMLU基准测试：Hugging Face实战指南与深度调优技巧

当你第一次听说MMLU基准时，可能会被那些排行榜上眼花缭乱的数字所吸引。但真正想了解模型能力，没有什么比自己动手跑一遍测试更有说服力了。本文将带你深入MMLU评估的实战细节，从环境搭建到结果分析，全程避开那些官方文档里没明说的"坑"。

1. 环境准备与工具链配置

在开始之前，我们需要建立一个稳定的实验环境。不同于简单的Python脚本，MMLU评估涉及到大模型加载、GPU资源管理和复杂的数据流处理，任何环节的疏忽都可能导致数小时的无效等待。

核心工具栈选择：

# 基础环境（推荐使用conda管理） conda create -n mmlu-eval python=3.9 conda activate mmlu-eval # 必须依赖 pip install torch==2.0.1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118 pip install transformers==4.33.0 datasets==2.14.4 accelerate==0.22.0

常见环境问题排查表：

问题现象	可能原因	解决方案
CUDA out of memory	批处理大小过大	减少eval_batch_size参数值
无法加载tokenizer	模型与tokenizer版本不匹配	明确指定revision参数
评估速度极慢	未启用FP16	在pipeline中添加`torch_dtype=torch.float16`

提示：使用NVIDIA A100显卡时，建议开启TF32加速：
torch.backends.cuda.matmul.allow_tf32 = True

2. 数据集加载与预处理实战

MMLU数据集包含57个学科的复杂结构，直接使用原始文件会遇到路径解析和格式转换问题。我们通过自定义DataLoader实现高效加载：

from datasets import load_dataset import pandas as pd def load_mmlu_dataset(mode='zs', cache_dir='./data'): """加载MMLU数据集并转换为HF标准格式 Args: mode: 'zs' 或 'fs' 对应零样本和少样本 cache_dir: 数据集缓存路径 """ subject_mapping = pd.read_csv(f"{cache_dir}/subject_mapping.csv") if mode == 'zs': dataset = load_dataset('json', data_files={ 'test': f'{cache_dir}/mmlu_zs_test.json', 'dev': f'{cache_dir}/mmlu_zs_dev.json' }) else: dataset = load_dataset('json', data_files={ 'test': f'{cache_dir}/mmlu_fs_test.json', 'dev': f'{cache_dir}/mmlu_fs_dev.json' }, field='questions') # 添加学科类别信息 dataset = dataset.map(lambda x: {'subject': subject_mapping[x['subject_id']]}) return dataset

数据处理中的关键细节：

少样本模式下每个问题会附带5个示例
STEM类题目需要特殊处理数学符号
法律和伦理类问题要注意答案歧义

3. 零样本评估的完整实现

下面我们构建一个可复用的评估pipeline，支持多种Hugging Face模型：

from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer import numpy as np class MMLUEvaluator: def __init__(self, model_name, device='cuda:0'): self.model = AutoModelForCausalLM.from_pretrained(model_name) self.tokenizer = AutoTokenizer.from_pretrained(model_name) self.pipeline = pipeline( "text-generation", model=self.model, tokenizer=self.tokenizer, device=device, torch_dtype=torch.float16 ) def zero_shot_eval(self, question, choices): """执行零样本评估""" prompt = f"Question: {question}\nChoices:\n" for idx, choice in enumerate(choices): prompt += f"{chr(65+idx)}. {choice}\n" prompt += "\nAnswer:" outputs = self.pipeline( prompt, max_new_tokens=2, return_full_text=False ) return outputs[0]['generated_text'].strip()

性能优化技巧：

使用do_sample=False提高评估一致性
对生成结果进行后处理匹配选项
批量处理问题时启用padding=True

4. 少样本评估的高级技巧

少样本学习需要精心设计示例的呈现方式。我们实现了一个动态few-shot模板生成器：

def build_few_shot_prompt(question, examples, subject): """构建少样本提示模板 Args: question: 当前问题 examples: 同类型的5个示例 subject: 学科类别 """ prompt = f"The following are multiple choice questions about {subject}.\n\n" for ex in examples: prompt += f"Question: {ex['question']}\n" prompt += "Choices:\n" for idx, c in enumerate(ex['choices']): prompt += f"{chr(65+idx)}. {c}\n" prompt += f"Answer: {ex['answer']}\n\n" prompt += f"Question: {question['question']}\n" prompt += "Choices:\n" for idx, c in enumerate(question['choices']): prompt += f"{chr(65+idx)}. {c}\n" prompt += "Answer:" return prompt

少样本策略对比：

策略	优点	缺点	适用场景
随机示例	简单快速	可能选到非典型示例	初步评估
难度分层	控制示例难度梯度	需要额外标注	精准评估
主题聚类	保证示例相关性	计算开销大	专业领域

5. 结果分析与可视化

获得原始评分后，我们需要深入分析模型表现：

import seaborn as sns import matplotlib.pyplot as plt def analyze_results(results_df): """生成详细的评估分析报告""" # 学科维度分析 plt.figure(figsize=(12, 6)) sns.boxplot(data=results_df, x='subject', y='accuracy') plt.xticks(rotation=90) plt.title('Accuracy Distribution by Subject') plt.tight_layout() # 难度曲线分析 difficulty_levels = results_df.groupby('difficulty')['correct'].mean() difficulty_levels.plot(kind='bar', title='Accuracy by Difficulty Level') # 生成详细报告 report = { 'overall_acc': results_df['correct'].mean(), 'stem_acc': results_df[results_df['subject'].isin( ['math', 'physics'])]['correct'].mean(), 'humanities_acc': results_df[results_df['subject'].isin( ['history', 'philosophy'])]['correct'].mean(), 'hardest_questions': results_df[results_df['correct'] == 0] } return report

评估完成后，建议保存完整的日志信息，包括：