加入腾讯的姚顺雨发表首篇Paper！-编程阁

Datawhale学术

论文发表：姚顺雨，来源：PaperAgent

2025.12.17 姚顺雨正式出任出任腾讯CEO / 总裁办公室首席 AI 科学家；兼任 AI Infra 部、大语言模型部负责人。
2026.1.10 在 AGI-Next 前沿峰会上首秀亮相：做应用不仅需要强大的模型能力，还需要较长context（上下文/语境）

回到最近，腾讯混元&复旦联合发表的论文中《CL-bench》，姚顺雨也署名了！

CL-bench：A benchmark for Context Learning

CL-bench地址：

1. https://www.clbench.com/

2. https://github.com/Tencent-Hunyuan/CL-bench

3. https://huggingface.co/datasets/tencent/CL-bench

当然不是只挂名哦，姚顺雨（Shunyu Yao）全面而细致的审阅和反馈，极大地提升了这项工作的质量。

一、CL-BENCH价值

现有评测	痛点
静态知识问答（MMLU、C-Eval）	模型只靠预训练“老本”
长文档理解（LongBench、L-Eval）	考的是“找答案”，不是“学知识”
In-Context Learning（ICL）	只给几个样例，学的是“格式”而非“新知”

CL-BENCH 首次把“现学现卖”单独拎出来考：

给一段全新、复杂、领域性强的上下文（最长 65 k tokens），再出 1~12 道必须依赖这段新知才能解的题目。

模型如果偷懒用预训练知识，几乎必挂（ablation 显示任务通过率 <1%）。

图 1：现学现卖 vs 传统 prompt 推理

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建：每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含（Self-contained）的。

解决任务所需的所有信息都显式地提供在 context 本身之中：不需要外部检索，也不允许隐藏假设。

解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。

三、四大题型，18 个子类

考卷长啥样？

CL-bench 示例。解决这些任务要求语言模型从提供的 context 中学习。

图 3：上下文分类学

四、评分机制——“全或无”

每道题配套 10~20 条可自动判定的细项 rubric（格式、事实、计算、逻辑…）。

只有全部 rubric 通过才算 1 分，否则 0 分——彻底杜绝“差不多”。

表 4：LM-as-Judge 的 system prompt（节选）

Score = 1：学生答案必须**完美**满足 rubric 中**每一条**要求 Score = 0：只要有 1 条不满足

五、10 个前沿模型集体“翻车”

表 2：10 款模型全量结果

关键发现

inductive ≪ deductive：需要“从数据归纳规律”的 Empirical Discovery 平均仅 11.8 %，比前三类低 6 个百分点。
长度即杀手：32 k tokens 以上文本，所有模型得分腰斩。
推理档位≠灵丹妙药：GPT-5.2 把推理从“low”拉到“high”，反而掉 5.6 %，暴露长链逻辑与指令跟随的失衡。

六、错误画像——模型都在怎么“偷懒”？

表 3：不同模型错误分布

一句话总结

CL-BENCH 像一场“闭卷速读+现场实操”的残酷考试，告诉咱们：现学现卖仍是下一代大模型最缺的通用能力。

把这篇论文加入你的阅读清单，一起把模型逼成“10 分钟就能上手新业务”的超级打工人！

一起“点赞”三连↓

BGE-Large-Zh实战案例：汽车维修手册语义检索与故障代码智能关联

BGE-Large-Zh实战案例：汽车维修手册语义检索与故障代码智能关联 1. 为什么修车师傅也需要“语义搜索引擎”？ 你有没有见过这样的场景：一位经验丰富的汽修老师傅，面对一辆报出“P0302”故障码的丰田凯美瑞，翻着厚厚三…

李华

一键生成3D动作：HY-Motion 1.0开箱即用体验

一键生成3D动作：HY-Motion 1.0开箱即用体验你有没有过这样的时刻——在Unity里调一个角色的跑步动画，反复拖动关键帧、调整髋部旋转、微调脚踝偏移，一小时过去，角色还是像踩着弹簧走路？或者在Unreal Engine中为游戏N…

李华

MT5 Zero-Shot中文增强部署教程：支持LoRA微调的扩展性架构设计

MT5 Zero-Shot中文增强部署教程：支持LoRA微调的扩展性架构设计你是不是也遇到过这些情况？ 做中文文本分类任务，训练数据只有几百条，模型一上手就过拟合；写产品文案时反复修改同一句话，却总觉得表达不够丰…

李华

开源大模型趋势分析：DeepSeek-R1-Distill-Qwen-1.5B为何成边缘计算首选

开源大模型趋势分析：DeepSeek-R1-Distill-Qwen-1.5B为何成边缘计算首选 1. 为什么1.5B参数的模型突然火了？ 过去两年，大模型圈有个心照不宣的共识：想跑得快、部署轻、成本低，就得往小里做。但“小”不等于“弱”——…

李华

bert-base-chinese快速上手指南：3个演示任务助你掌握中文BERT核心能力

bert-base-chinese快速上手指南：3个演示任务助你掌握中文BERT核心能力你是不是也遇到过这些情况：想用中文BERT做点实际事，却卡在环境配置上；下载了模型文件，却不知道从哪开始调用；看了几篇教程&#xff0…

李华

MedGemma X-Ray部署教程：NVIDIA驱动版本兼容性验证与torch27环境隔离方案

MedGemma X-Ray部署教程：NVIDIA驱动版本兼容性验证与torch27环境隔离方案 1. 为什么需要专门的部署方案？ MedGemma X-Ray不是普通AI应用，它是一套面向医疗影像分析的专业级系统。你可能已经试过直接pip install就跑起来——但很快会发现&…

李华