腾讯姚顺雨首篇 Paper 落地！CL-bench 横空出世，10 大前沿模型集体 “翻车”！

xigua · 2026 年2 月 7 日 06:40

2026 年 AI 领域再添重磅评测基准！腾讯混元团队与复旦大学联合推出专注于 “上下文学习（Context Learning）” 的评测基准 CL-bench，刚加入腾讯不久的首席 AI 科学家姚顺雨（Shunyu Yao）深度参与其中，提供了全面细致的审阅与反馈，极大提升了这项工作的质量。这款基准首次聚焦模型 “现学现卖” 的核心能力，直击现有评测痛点，却让 GPT 5.1、Claude Opus 4.5 等 10 款前沿模型集体折戟，揭示了下一代大模型的关键能力瓶颈。

CL-bench 已全面开源，可通过以下渠道获取：

官方网站：https://www.clbench.com/
GitHub 仓库：https://github.com/Tencent-Hunyuan/CL-bench
Hugging Face 数据集：https://huggingface.co/datasets/tencent/CL-bench

一、CL-bench：直击行业痛点，定义 “现学现卖” 新评测

现有大模型评测多存在明显局限：静态知识问答（如 MMLU、C-Eval）依赖模型预训练 “老本”，长文档理解（如 LongBench）侧重 “找答案” 而非 “学知识”，而上下文学习（ICL）仅能让模型掌握格式而非新知。CL-bench 的核心创新，是首次将 “从复杂上下文中学新知识并解决问题” 作为独立评测维度，打造了一场 “闭卷速读 + 现场实操” 的残酷考试。

核心设计原则：完全自包含，拒绝 “偷懒”

CL-bench 的所有任务都遵循 “自包含（Self-contained）” 原则 —— 解决任务所需的全部信息均明确包含在上下文之中，无需外部检索，也不允许模型依赖预训练知识。上下文最长达 65k tokens，涵盖虚构法系、新编程语言、实验流程、观测数据等复杂内容，模型若想 “偷懒” 套用旧知识，任务通过率低于 1%，彻底杜绝 “伪理解”。

四大题型 + 18 个子类：覆盖真实世界复杂场景

CL-bench 包含 500 个上下文、1899 个任务和 31607 条细项评分标准，平均输入长度达 10.4k tokens，题型覆盖四大核心场景，全面考验模型的新知识学习与应用能力：

表格

一级类别	二级示例	核心能力	任务场景
领域知识推理（Domain Knowledge）	虚构法律、小众金融、冷门医学	快速吸收领域新知，化身 “临时专家”	基于《2025 客户数据法案》为客户制定维权方案
规则系统应用（Rule System）	新编程语言、桌游规则、数学公理	掌握陌生规则，即时落地应用	按全新语言规范编写定时打印程序
流程任务执行（Procedural Task）	产品手册、实验流程、运维 SOP	精准遵循步骤，零差错完成操作	解读 Vex 框架文档，运行指定代码并输出结果
实证发现与模拟（Empirical Discovery）	观测数据、沙盒模拟、实验结果	从数据中归纳规律，完成模拟预测	基于供应链模拟参数，预测金属可持续年产量

评分机制：“全或无” 的严格标准

为杜绝 “差不多” 的模糊输出，CL-bench 采用二进制评分规则：每道题配套 10-20 条细项评分标准（涵盖格式、事实、计算、逻辑等），只有全部满足才能得 1 分，只要有 1 条未达标则得 0 分。评分过程由 LM-as-Judge 自动执行，需经过标准分析、逐条校验、自我反思三大步骤，确保客观严格。

二、实测震撼：10 大前沿模型集体折戟，平均通过率仅 17.2%

研究团队对 10 款全球前沿大模型进行了全量评测，结果令人意外 —— 即便是表现最佳的模型，整体通过率也不足 25%，平均通过率仅 17.2%，暴露了大模型在 “现学现卖” 能力上的严重短板。

模型排名：GPT 5.1 夺冠，腾讯混元跻身前十

表格

排名	模型名称	整体通过率	领域知识推理	规则系统应用	流程任务执行	实证发现与模拟
1	GPT 5.1 (High)	23.7%±0.5	25.3%±1.3	23.7%±1.3	23.8%±1.4	18.1%±3.1
2	GPT 5.1	21.1%±0.2	-	-	-	-
3	Claude Opus 4.5 Thinking	21.1%±1.4	23.7%±1.2	19.0%±1.5	22.6%±1.5	15.1%±2.3
4	Claude Opus 4.5	19.1%±0.4	-	-	-	-
5	GPT 5.2	18.2%±0.5	-	-	-	-
6	GPT 5.2 (High)	18.1%±0.8	18.6%±0.9	17.2%±1.3	21.4%±1.1	11.7%±1.8
7	o3 (High)	17.8%±0.2	18.0%±1.4	17.6%±1.1	19.5%±0.4	13.7%±0.8
8	Kimi K2 Thinking	17.6%±0.6	18.7%±0.6	17.0%±1.5	18.8%±0.7	12.6%±4.0
9	腾讯混元 HY 2.0 Thinking	17.2%±0.6	18.0%±1.0	17.3%±0.5	19.4%±1.1	8.9%±0.3
10	Gemini 3 Pro (High)	15.8%±0.3	15.5%±1.1	17.7%±1.7	16.4%±1.6	10.1%±3.1

三大关键发现：模型能力瓶颈浮出水面

归纳能力远逊演绎：需要从数据中总结规律的 “实证发现与模拟” 类任务平均通过率仅 11.8%，比其他三类低 6 个百分点，成为模型的最大短板；
长文本是 “致命杀手”：当上下文长度超过 32k tokens，所有模型的得分直接腰斩，长文本理解与知识吸收能力严重不足；
高推理档位并非万能：GPT 5.2 将推理档位从 “low” 提升至 “high” 后，通过率反而下降 5.6%，暴露了长链逻辑与指令跟随的失衡问题。

三、错误画像：模型都在怎么 “偷懒”？

评测还揭示了模型在上下文学习中的三大核心错误类型，其中 “误用上下文” 最为普遍：

上下文误用（Context Misused）：占比 60%，模型虽引用了上下文信息，但错误套用规则、参数或逻辑，比如混淆新编程语言的语法规范；
上下文忽略（Context Ignored）：占比 30%，模型完全无视上下文新知，用预训练知识作答，例如将虚构法律当作现实法律提供解决方案；
格式错误（Format Error）：占比 35%，未满足输出格式要求，如 JSON 缺失字段、顺序错乱等，其中豆包 1.6 的格式错误率高达 45.8%。

不同模型的错误分布各有差异：DeepSeek V3.2 和豆包 1.6 的 “上下文忽略” 错误率最高（均超 66%），Claude Opus 4.5 Thinking 的 “上下文误用” 错误率达 66%，整体来看，没有任何模型能有效规避三类核心错误。

四、行业意义：倒逼大模型向 “快速上手新业务” 进化

CL-bench 的推出，不仅填补了现有评测的空白，更精准指出了大模型落地真实世界的关键障碍 —— 在企业办公、专业咨询、技术研发等场景中，人们往往需要快速学习陌生领域知识并解决问题，而当前大模型的 “现学现卖” 能力显然无法满足需求。

姚顺雨此前在 AGI-Next 前沿峰会上就强调，“做应用不仅需要强大的模型能力，还需要较长上下文与高效的新知识学习能力”。CL-bench 的落地，正是对这一理念的实践，它为大模型优化提供了明确方向：未来模型不仅要提升长文本理解能力，更要强化知识归纳、规则应用的精准度，才能真正成为 “10 分钟上手新业务” 的超级助手。

对于 AI 行业而言，这款基准的开源将推动更多团队聚焦上下文学习能力突破，加速大模型从 “记忆高手” 向 “学习高手” 转型。而腾讯混元与复旦大学的联合探索，也为产学研协同创新提供了优秀范本。

nonono · 2026 年2 月 7 日 06:48

这测试有点意思啊

oldme · 2026 年2 月 7 日 06:59

这个评测有点意思啊直接测模型现学现用的能力看来现在的大模型离真正理解还差得远

logic7 · 2026 年2 月 7 日 08:25

这评测有点意思直击痛点

justin66 · 2026 年2 月 7 日 11:15

这评测有点意思啊

k8sfan99 · 2026 年2 月 9 日 01:57

这个测试确实有点东西

happyday · 2026 年2 月 9 日 01:57

这评测有点东西啊

marketv8 · 2026 年2 月 9 日 19:59

深夜刷到这个
腾讯混元这次挺敢的
CL-bench有点意思
现学现卖确实难
模型都翻车了
姚顺雨审得细
开源好评
等一波实测

coderX · 2026 年2 月 11 日 08:52

这评测够狠啊 GPT5都翻车了

uxmaster · 2026 年2 月 13 日 15:10

现学现用确实是个痛点