Datawhale学术
论文发表:姚顺雨,来源:PaperAgent
2025.12.17 姚顺雨正式出任出任腾讯CEO / 总裁办公室首席 AI 科学家;兼任 AI Infra 部、大语言模型部负责人。
2026.1.10 在 AGI-Next 前沿峰会上首秀亮相:做应用不仅需要强大的模型能力,还需要较长context(上下文/语境)
回到最近,腾讯混元&复旦联合发表的论文中《CL-bench》,姚顺雨也署名了!
CL-bench:A benchmark for Context Learning
CL-bench地址:
1. https://www.clbench.com/
2. https://github.com/Tencent-Hunyuan/CL-bench
3. https://huggingface.co/datasets/tencent/CL-bench
当然不是只挂名哦,姚顺雨(Shunyu Yao)全面而细致的审阅和反馈,极大地提升了这项工作的质量。
一、CL-BENCH价值
现有评测 | 痛点 |
静态知识问答(MMLU、C-Eval) | 模型只靠预训练“老本” |
长文档理解(LongBench、L-Eval) | 考的是“找答案”,不是“学知识” |
In-Context Learning(ICL) | 只给几个样例,学的是“格式”而非“新知” |
CL-BENCH 首次把“现学现卖”单独拎出来考:
给一段全新、复杂、领域性强的上下文(最长 65 k tokens),再出 1~12 道必须依赖这段新知才能解的题目。
模型如果偷懒用预训练知识,几乎必挂(ablation 显示任务通过率 <1%)。
图 1:现学现卖 vs 传统 prompt 推理
二、CL-bench设计原则
CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。
解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。
三、四大题型,18 个子类
考卷长啥样?
CL-bench 示例。解决这些任务要求语言模型从提供的 context 中学习。
图 3:上下文分类学
四、评分机制——“全或无”
每道题配套 10~20 条可自动判定的细项 rubric(格式、事实、计算、逻辑…)。
只有全部 rubric 通过才算 1 分,否则 0 分——彻底杜绝“差不多”。
表 4:LM-as-Judge 的 system prompt(节选)
Score = 1:学生答案必须**完美**满足 rubric 中**每一条**要求 Score = 0:只要有 1 条不满足五、10 个前沿模型集体“翻车”
表 2:10 款模型全量结果
关键发现
inductive ≪ deductive:需要“从数据归纳规律”的 Empirical Discovery 平均仅 11.8 %,比前三类低 6 个百分点。
长度即杀手:32 k tokens 以上文本,所有模型得分腰斩。
推理档位≠灵丹妙药:GPT-5.2 把推理从“low”拉到“high”,反而掉 5.6 %,暴露长链逻辑与指令跟随的失衡。
六、错误画像——模型都在怎么“偷懒”?
表 3:不同模型错误分布
一句话总结
CL-BENCH 像一场“闭卷速读+现场实操”的残酷考试,告诉咱们:现学现卖仍是下一代大模型最缺的通用能力。
把这篇论文加入你的阅读清单,一起把模型逼成“10 分钟就能上手新业务”的超级打工人!
一起“点赞”三连↓