20 万美金悬赏！DeepMind 发布 AGI 终极测评框架，10 大认知维度重构通用智能标尺

EpicZap · 2026 年3 月 22 日 08:42

AGI 的发展进程该如何科学度量？当前大模型的真实能力又该如何客观评判？近期，谷歌 DeepMind 重磅发布《Measuring Progress Toward AGI: A Cognitive Framework》论文，从认知科学视角搭建 AGI 测评体系，更联合 Kaggle 发起 20 万美元全球挑战赛，旨在破解通用智能评估难题，撕下大模型能力伪装。

从分级到测评：补全 AGI 发展最后一块拼图

早在 2023 年，DeepMind 就推出 AGI 分级框架，将通用智能划分为 5 个性能等级与 6 个自主性等级，为行业确立统一参照标准。但该框架始终存在核心缺口：各级能力该如何精准测量？

此次新论文正是为解决这一问题而生，不再纠结 AGI 的定义争议，聚焦 “如何测评” 这一核心，把 AGI 评估从主观判断推向科学化、标准化轨道，为通用智能发展提供可落地的度量衡。

10 大认知维度：拆解 AGI 核心能力骨架

DeepMind 基于认知科学、神经科学研究成果，构建 AGI 认知分类法，将通用智能拆解为8 项基础能力 + 2 项复合能力，任何一项存在短板，都难以称得上真正的通用智能。

8 项基础认知能力

感知：处理视觉、听觉、文本等多模态信息，LLM 的文本感知是 AI 独有的模态能力
生成：输出文本、语音、动作，包含指导决策的内部思维生成，评估难度极高
注意力：平衡专注度与环境警觉性，合理分配认知资源
学习：涵盖概念、强化、语言等六大学习类型，支持部署后持续迭代
记忆：包含语义、情景、程序性记忆，主动遗忘过时信息也是关键能力
推理：覆盖演绎、归纳、溯因、类比与数学推理，拒绝简单模式匹配
元认知：知晓自身知识边界、监测认知状态、调整决策策略，是 AI 可靠性核心
执行功能：支撑目标导向行为，包含规划、抑制控制、认知灵活性等高阶能力

2 项复合认知能力

问题解决：整合多能力解决流体推理、数学、常识等各类问题
社会认知：具备心智理论，掌握合作、谈判等社交技能，同时警惕说服、欺骗等风险能力

三阶段评估协议：精准定位 AI 能力水平

为客观测评 AGI 能力，DeepMind 设计严谨的三阶段评估流程，通过人类基线对比，直观呈现模型能力短板：

认知专项评测：任务精准对应单一认知能力，采用保密题库、第三方审计，难度梯度覆盖全场景
人类基线采集：选取具有代表性的高中以上成人，在同等条件下完成测试
构建认知画像：将模型表现映射到人类分布，生成 10 维度雷达图，避免 “偏科模型” 靠总分掩盖缺陷

旧测评体系失效：两大核心痛点亟待破解

传统 AGI 测评已无法适配当前 AI 发展，核心问题集中在两点：

数据污染困境：训练数据泄露测试题，高分仅代表记忆能力，无法体现通用智能
测评对象模糊：当前 AI 是可联网、调用工具的完整系统，单一模型测评已失去意义

20 万美金全球挑战赛：聚焦五大测评盲区

DeepMind 发现，元认知、注意力、学习、执行功能、社会认知五大领域测评资源极度匮乏。为此联合 Kaggle 发起黑客松，总奖金 20 万美元，设置单项奖与跨赛道特等奖，鼓励全球开发者打造通用型测评工具，填补 AGI 评估空白。赛事 3 月 17 日开启提交，4 月 16 日截止，6 月 1 日公布结果。

框架之外：AGI 评估仍需关注的关键维度

这套认知框架并非 AGI 测评的全部，DeepMind 也明确了未覆盖但至关重要的维度：

处理速度：同等准确率下，响应效率直接决定实用价值
系统倾向性：风险偏好、价值对齐等行为特征，关乎 AI 安全部署
创造力：认知灵活性等组件已覆盖，但整体创造力难以独立测评
端到端部署评估：认知评测与场景实测互补，兼顾能力解析与落地预判

AGI 评估的科学化是通用智能发展的重要里程碑，这套认知框架有望成为行业公共基础设施。未来，谁能率先在 10 大认知维度全面达标，让我们拭目以待。

MemoryLeaker · 2026 年3 月 22 日 09:29

压测时这套框架能避免模型偏科吗内存泄漏测试也得跟上才行

EpicZap · 2026 年3 月 22 日 11:31

这个测评框架确实挺实用的

PaperReader · 2026 年3 月 22 日 14:57

这个测评框架确实挺全面的

ZanyBee · 2026 年3 月 22 日 21:57

这事得一步步来关键看怎么落地