腾讯姚顺雨首篇 Paper 落地!CL-bench 横空出世,10 大前沿模型集体 “翻车”!

2026 年 AI 领域再添重磅评测基准!腾讯混元团队与复旦大学联合推出专注于 “上下文学习(Context Learning)” 的评测基准 CL-bench,刚加入腾讯不久的首席 AI 科学家姚顺雨(Shunyu Yao)深度参与其中,提供了全面细致的审阅与反馈,极大提升了这项工作的质量。这款基准首次聚焦模型 “现学现卖” 的核心能力,直击现有评测痛点,却让 GPT 5.1、Claude Opus 4.5 等 10 款前沿模型集体折戟,揭示了下一代大模型的关键能力瓶颈。

CL-bench 已全面开源,可通过以下渠道获取:

  1. 官方网站:https://www.clbench.com/

  2. GitHub 仓库:https://github.com/Tencent-Hunyuan/CL-bench

  3. Hugging Face 数据集:https://huggingface.co/datasets/tencent/CL-bench

一、CL-bench:直击行业痛点,定义 “现学现卖” 新评测

现有大模型评测多存在明显局限:静态知识问答(如 MMLU、C-Eval)依赖模型预训练 “老本”,长文档理解(如 LongBench)侧重 “找答案” 而非 “学知识”,而上下文学习(ICL)仅能让模型掌握格式而非新知。CL-bench 的核心创新,是首次将 “从复杂上下文中学新知识并解决问题” 作为独立评测维度,打造了一场 “闭卷速读 + 现场实操” 的残酷考试。

核心设计原则:完全自包含,拒绝 “偷懒”

CL-bench 的所有任务都遵循 “自包含(Self-contained)” 原则 —— 解决任务所需的全部信息均明确包含在上下文之中,无需外部检索,也不允许模型依赖预训练知识。上下文最长达 65k tokens,涵盖虚构法系、新编程语言、实验流程、观测数据等复杂内容,模型若想 “偷懒” 套用旧知识,任务通过率低于 1%,彻底杜绝 “伪理解”。

四大题型 + 18 个子类:覆盖真实世界复杂场景

CL-bench 包含 500 个上下文、1899 个任务和 31607 条细项评分标准,平均输入长度达 10.4k tokens,题型覆盖四大核心场景,全面考验模型的新知识学习与应用能力:

表格

一级类别 二级示例 核心能力 任务场景
领域知识推理(Domain Knowledge) 虚构法律、小众金融、冷门医学 快速吸收领域新知,化身 “临时专家” 基于《2025 客户数据法案》为客户制定维权方案
规则系统应用(Rule System) 新编程语言、桌游规则、数学公理 掌握陌生规则,即时落地应用 按全新语言规范编写定时打印程序
流程任务执行(Procedural Task) 产品手册、实验流程、运维 SOP 精准遵循步骤,零差错完成操作 解读 Vex 框架文档,运行指定代码并输出结果
实证发现与模拟(Empirical Discovery) 观测数据、沙盒模拟、实验结果 从数据中归纳规律,完成模拟预测 基于供应链模拟参数,预测金属可持续年产量

评分机制:“全或无” 的严格标准

为杜绝 “差不多” 的模糊输出,CL-bench 采用二进制评分规则:每道题配套 10-20 条细项评分标准(涵盖格式、事实、计算、逻辑等),只有全部满足才能得 1 分,只要有 1 条未达标则得 0 分。评分过程由 LM-as-Judge 自动执行,需经过标准分析、逐条校验、自我反思三大步骤,确保客观严格。

二、实测震撼:10 大前沿模型集体折戟,平均通过率仅 17.2%

研究团队对 10 款全球前沿大模型进行了全量评测,结果令人意外 —— 即便是表现最佳的模型,整体通过率也不足 25%,平均通过率仅 17.2%,暴露了大模型在 “现学现卖” 能力上的严重短板。

模型排名:GPT 5.1 夺冠,腾讯混元跻身前十

表格

排名 模型名称 整体通过率 领域知识推理 规则系统应用 流程任务执行 实证发现与模拟
1 GPT 5.1 (High) 23.7%±0.5 25.3%±1.3 23.7%±1.3 23.8%±1.4 18.1%±3.1
2 GPT 5.1 21.1%±0.2 - - - -
3 Claude Opus 4.5 Thinking 21.1%±1.4 23.7%±1.2 19.0%±1.5 22.6%±1.5 15.1%±2.3
4 Claude Opus 4.5 19.1%±0.4 - - - -
5 GPT 5.2 18.2%±0.5 - - - -
6 GPT 5.2 (High) 18.1%±0.8 18.6%±0.9 17.2%±1.3 21.4%±1.1 11.7%±1.8
7 o3 (High) 17.8%±0.2 18.0%±1.4 17.6%±1.1 19.5%±0.4 13.7%±0.8
8 Kimi K2 Thinking 17.6%±0.6 18.7%±0.6 17.0%±1.5 18.8%±0.7 12.6%±4.0
9 腾讯混元 HY 2.0 Thinking 17.2%±0.6 18.0%±1.0 17.3%±0.5 19.4%±1.1 8.9%±0.3
10 Gemini 3 Pro (High) 15.8%±0.3 15.5%±1.1 17.7%±1.7 16.4%±1.6 10.1%±3.1

三大关键发现:模型能力瓶颈浮出水面

  1. 归纳能力远逊演绎:需要从数据中总结规律的 “实证发现与模拟” 类任务平均通过率仅 11.8%,比其他三类低 6 个百分点,成为模型的最大短板;

  2. 长文本是 “致命杀手”:当上下文长度超过 32k tokens,所有模型的得分直接腰斩,长文本理解与知识吸收能力严重不足;

  3. 高推理档位并非万能:GPT 5.2 将推理档位从 “low” 提升至 “high” 后,通过率反而下降 5.6%,暴露了长链逻辑与指令跟随的失衡问题。

三、错误画像:模型都在怎么 “偷懒”?

评测还揭示了模型在上下文学习中的三大核心错误类型,其中 “误用上下文” 最为普遍:

  • 上下文误用(Context Misused):占比 60%,模型虽引用了上下文信息,但错误套用规则、参数或逻辑,比如混淆新编程语言的语法规范;

  • 上下文忽略(Context Ignored):占比 30%,模型完全无视上下文新知,用预训练知识作答,例如将虚构法律当作现实法律提供解决方案;

  • 格式错误(Format Error):占比 35%,未满足输出格式要求,如 JSON 缺失字段、顺序错乱等,其中豆包 1.6 的格式错误率高达 45.8%。

不同模型的错误分布各有差异:DeepSeek V3.2 和豆包 1.6 的 “上下文忽略” 错误率最高(均超 66%),Claude Opus 4.5 Thinking 的 “上下文误用” 错误率达 66%,整体来看,没有任何模型能有效规避三类核心错误。

四、行业意义:倒逼大模型向 “快速上手新业务” 进化

CL-bench 的推出,不仅填补了现有评测的空白,更精准指出了大模型落地真实世界的关键障碍 —— 在企业办公、专业咨询、技术研发等场景中,人们往往需要快速学习陌生领域知识并解决问题,而当前大模型的 “现学现卖” 能力显然无法满足需求。

姚顺雨此前在 AGI-Next 前沿峰会上就强调,“做应用不仅需要强大的模型能力,还需要较长上下文与高效的新知识学习能力”。CL-bench 的落地,正是对这一理念的实践,它为大模型优化提供了明确方向:未来模型不仅要提升长文本理解能力,更要强化知识归纳、规则应用的精准度,才能真正成为 “10 分钟上手新业务” 的超级助手。

对于 AI 行业而言,这款基准的开源将推动更多团队聚焦上下文学习能力突破,加速大模型从 “记忆高手” 向 “学习高手” 转型。而腾讯混元与复旦大学的联合探索,也为产学研协同创新提供了优秀范本。

这测试有点意思啊

这个评测有点意思啊 直接测模型现学现用的能力 看来现在的大模型离真正理解还差得远

这评测有点意思 直击痛点

这评测有点意思啊

这个测试确实有点东西

这评测有点东西啊

深夜刷到这个
腾讯混元这次挺敢的
CL-bench有点意思
现学现卖确实难
模型都翻车了
姚顺雨审得细
开源好评
等一波实测

这评测够狠啊 GPT5都翻车了

现学现用确实是个痛点