1. Omni-MATH-2数据集概述
数学竞赛题作为衡量AI系统推理能力的重要基准,一直面临着数据质量参差不齐的挑战。Omni-MATH-2正是为解决这一问题而生的增强型数据集,它基于原始Omni-MATH数据集进行了全面升级。原始数据集包含4,428道来自数学竞赛网站、AoPS维基和论坛的题目,每道题都配有精确答案、详细解答以及元数据(领域、难度、来源)。但实际使用中发现,即使是经过人工验证的高质量数据集,仍可能存在各种隐性问题。
这个数据集最显著的特点是采用了三层质量过滤机制:
- LaTeX可编译性检查:确保所有题目都能正确编译为PDF格式
- 问题可解性验证:确认题目包含完整的问题陈述和解题所需全部信息
- 答案可评估性标注:特别标记需要特殊评估方式的题目类型(如证明题、估算题)
提示:数据集中的"证明类"题目占比约17%,这类题目传统评估工具往往难以准确评判,Omni-MATH-2通过专门的标签系统解决了这一痛点。
2. 数据集清洗流程详解
2.1 LaTeX编译验证
技术团队使用XeLaTeX和pdfLaTeX双引擎进行编译测试,过程中发现了约8%的题目存在编译问题。最常见的问题包括:
- 缺失图像文件(占问题总数的3.2%)
- 错误的LaTeX语法(2.1%)
- 不完整的题目分part(1.7%)
对于缺失图像的题目,处理流程如下:
- 通过搜索引擎查找原始竞赛题
- 如找不到,使用GPT-5.1辅助检索
- 将找到的图像存入指定目录
- 修改LaTeX代码正确引用图像路径
2.2 问题可解性评估
由数学PhD专家逐题检查:
- 题目是否包含明确的问题陈述(100%检查)
- 是否提供解题所需的全部信息(特别关注分part题目)
- 题目表述是否存在歧义
在此阶段发现约5%的题目存在信息不全问题,例如:
- 题目b部分引用了a部分的内容,但a部分未包含在数据集中
- 题目假设了某些前置知识但未明确说明
2.3 评估标签系统设计
Omni-MATH-2引入了精细的标签体系:
| 标签类型 | 占比 | 处理方式 | 典型示例 |
|---|---|---|---|
| proof | 17% | 特殊评估 | "证明存在性"类问题 |
| estimation | 9% | 特殊评估 | "估算数值"类问题 |
| image | 12% | 多模态处理 | 含几何图形的题目 |
| should_delete | 2% | 排除 | 空问题、包含答案的问题 |
3. 评估体系架构
3.1 Omni-Judge评估模型
这个开源的数学评估模型专为Omni-MATH设计,其工作原理是:
- 输入:问题陈述、模型输出、参考答案
- 处理:比较模型输出与参考答案的逻辑一致性
- 输出:正确/错误判断
技术参数:
- 上下文长度:4,096 tokens
- 最大新生成token:300
- 运行环境:LM Studio
实际测试中发现,Omni-Judge在判断答案等价性方面存在局限(错误率约15%),特别是当:
- 答案形式不同但数学等价时
- 证明过程采用不同方法但结论正确时
3.2 GPT-5 mini评估器
作为补充评估方案,GPT-5 mini展现出更强的语义理解能力:
- 能够识别不同形式的等价答案
- 可以评估证明过程的逻辑完整性
- 对估算类问题容错性更好
评估提示词设计:
{ "instruction": "评估数学答案的正确性", "output_schema": { "extracted_final_answer": "string", "reasoning": "string", "correct": "boolean" } }4. 前沿模型测试结果分析
在Omni-MATH-2-Filtered子集上的测试数据显示:
| 模型 | Omni-Judge准确率 | GPT-5 mini准确率 |
|---|---|---|
| Claude Sonnet 4.5 | 74.93% | 79.29% |
| DeepSeek v3.2 | 77.45% | 82.95% |
| Gemini 3 Pro | 83.43% | 89.93% |
| GPT-5 | 83.47% | 84.53% |
| Kimi K2 Thinking | 86.99% | 86.87% |
关键发现:
- 模型间性能差异显著(最大差距达12个百分点)
- 评估工具选择严重影响结果(Omni-Judge普遍给出更低分)
- 证明类题目表现最差(平均准确率比计算题低23%)
5. 实践应用建议
5.1 数据集使用技巧
- 对于严格评测:使用Filtered子集(已去除problematic题目)
- 研究证明能力:专门分析proof标签题目
- 多模态研究:关注image标签题目
5.2 评估策略优化
推荐采用双评估器方案:
- 先用Omni-Judge进行快速初筛
- 对判定为"错误"的结果,用GPT-5 mini复核
- 特别检查以下情况:
- 证明类题目
- 包含特殊数学符号的答案
- 不同形式的等价表达式
5.3 常见问题排查
评估不一致问题:
- 检查答案是否数学等价但形式不同
- 验证证明过程是否采用了不同但有效的方法
- 确认题目是否属于proof/estimation类型
模型表现异常:
- 检查题目是否包含图像(多模态模型可能有优势)
- 确认题目难度分级是否准确
- 分析错误是否集中在特定数学领域
LaTeX渲染问题:
- 确保使用完整TeX环境
- 检查所有依赖包是否安装
- 验证图像路径是否正确
在实际研究中使用Omni-MATH-2时,建议始终记录使用的数据集子集(Filtered或Tagged)和评估工具版本,这对结果复现至关重要。对于证明类题目的评估,可以考虑引入专家人工复核作为金标准。