news 2026/5/7 14:10:21

加入腾讯的姚顺雨发表首篇Paper!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
加入腾讯的姚顺雨发表首篇Paper!

Datawhale学术

论文发表:姚顺雨,来源:PaperAgent

  • 2025.12.17 姚顺雨正式出任出任腾讯CEO / 总裁办公室首席 AI 科学家;兼任 AI Infra 部、大语言模型部负责人。

  • 2026.1.10 在 AGI-Next 前沿峰会上首秀亮相:做应用不仅需要强大的模型能力,还需要较长context(上下文/语境)

回到最近,腾讯混元&复旦联合发表的论文中《CL-bench》,姚顺雨也署名了!

CL-bench:A benchmark for Context Learning

CL-bench地址:

1. https://www.clbench.com/

2. https://github.com/Tencent-Hunyuan/CL-bench

3. https://huggingface.co/datasets/tencent/CL-bench

当然不是只挂名哦,姚顺雨(Shunyu Yao)全面而细致的审阅和反馈,极大地提升了这项工作的质量。

一、CL-BENCH价值

现有评测

痛点

静态知识问答(MMLU、C-Eval)

模型只靠预训练“老本”

长文档理解(LongBench、L-Eval)

考的是“找答案”,不是“学知识”

In-Context Learning(ICL)

只给几个样例,学的是“格式”而非“新知”

CL-BENCH 首次把“现学现卖”单独拎出来考

给一段全新、复杂、领域性强的上下文(最长 65 k tokens),再出 1~12 道必须依赖这段新知才能解的题目。

模型如果偷懒用预训练知识,几乎必挂(ablation 显示任务通过率 <1%)。

图 1:现学现卖 vs 传统 prompt 推理

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的

解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

解决CL-bench 中的任务需要模型从相应的 context 中学习新知识。

三、四大题型,18 个子类

考卷长啥样?

CL-bench 示例。解决这些任务要求语言模型从提供的 context 中学习。

图 3:上下文分类学

四、评分机制——“全或无”

每道题配套 10~20 条可自动判定的细项 rubric(格式、事实、计算、逻辑…)。

只有全部 rubric 通过才算 1 分,否则 0 分——彻底杜绝“差不多”。

表 4:LM-as-Judge 的 system prompt(节选)

Score = 1:学生答案必须**完美**满足 rubric 中**每一条**要求 Score = 0:只要有 1 条不满足

五、10 个前沿模型集体“翻车”

表 2:10 款模型全量结果

关键发现

  1. inductive ≪ deductive:需要“从数据归纳规律”的 Empirical Discovery 平均仅 11.8 %,比前三类低 6 个百分点。

  2. 长度即杀手:32 k tokens 以上文本,所有模型得分腰斩。

  3. 推理档位≠灵丹妙药:GPT-5.2 把推理从“low”拉到“high”,反而掉 5.6 %,暴露长链逻辑与指令跟随的失衡。

六、错误画像——模型都在怎么“偷懒”?

表 3:不同模型错误分布

一句话总结

CL-BENCH 像一场“闭卷速读+现场实操”的残酷考试,告诉咱们:现学现卖仍是下一代大模型最缺的通用能力

把这篇论文加入你的阅读清单,一起把模型逼成“10 分钟就能上手新业务”的超级打工人!

一起“赞”三连

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 13:07:01

BGE-Large-Zh实战案例:汽车维修手册语义检索与故障代码智能关联

BGE-Large-Zh实战案例&#xff1a;汽车维修手册语义检索与故障代码智能关联 1. 为什么修车师傅也需要“语义搜索引擎”&#xff1f; 你有没有见过这样的场景&#xff1a;一位经验丰富的汽修老师傅&#xff0c;面对一辆报出“P0302”故障码的丰田凯美瑞&#xff0c;翻着厚厚三…

作者头像 李华
网站建设 2026/5/5 8:31:51

一键生成3D动作:HY-Motion 1.0开箱即用体验

一键生成3D动作&#xff1a;HY-Motion 1.0开箱即用体验 你有没有过这样的时刻——在Unity里调一个角色的跑步动画&#xff0c;反复拖动关键帧、调整髋部旋转、微调脚踝偏移&#xff0c;一小时过去&#xff0c;角色还是像踩着弹簧走路&#xff1f;或者在Unreal Engine中为游戏N…

作者头像 李华
网站建设 2026/5/6 8:39:39

MT5 Zero-Shot中文增强部署教程:支持LoRA微调的扩展性架构设计

MT5 Zero-Shot中文增强部署教程&#xff1a;支持LoRA微调的扩展性架构设计 你是不是也遇到过这些情况&#xff1f; 做中文文本分类任务&#xff0c;训练数据只有几百条&#xff0c;模型一上手就过拟合&#xff1b;写产品文案时反复修改同一句话&#xff0c;却总觉得表达不够丰…

作者头像 李华
网站建设 2026/5/5 21:48:43

开源大模型趋势分析:DeepSeek-R1-Distill-Qwen-1.5B为何成边缘计算首选

开源大模型趋势分析&#xff1a;DeepSeek-R1-Distill-Qwen-1.5B为何成边缘计算首选 1. 为什么1.5B参数的模型突然火了&#xff1f; 过去两年&#xff0c;大模型圈有个心照不宣的共识&#xff1a;想跑得快、部署轻、成本低&#xff0c;就得往小里做。但“小”不等于“弱”——…

作者头像 李华
网站建设 2026/5/3 16:00:09

MedGemma X-Ray部署教程:NVIDIA驱动版本兼容性验证与torch27环境隔离方案

MedGemma X-Ray部署教程&#xff1a;NVIDIA驱动版本兼容性验证与torch27环境隔离方案 1. 为什么需要专门的部署方案&#xff1f; MedGemma X-Ray不是普通AI应用&#xff0c;它是一套面向医疗影像分析的专业级系统。你可能已经试过直接pip install就跑起来——但很快会发现&…

作者头像 李华