2022 年 ChatGPT 开启对话时代,但 AI 真正的质变始于 “系统性思考” 能力的觉醒。前 1X Technologies 副总裁 Eric Jang 指出,当推理成为可自动化、可调度的算力资源,人类生产力、组织形态乃至权力结构都将迎来深层重构。从 AlphaGo 的棋盘突破到 DeepSeek R1 的通用推理,这条进化之路清晰指向一个核心:AI 已从 “模式记忆” 升级为 “逻辑构建”,石头真的开始思考了。
一、推理的双重本质:AI 必须突破的逻辑困境
推理的核心是从前提推导结论,AI 的进化本质是对演绎与归纳两种思维方式的融合与超越:
-
演绎推理:追求必然结论,如数学公理推导。但现实世界充满不确定性,且围棋、国际象棋等复杂场景的状态空间呈指数级爆炸,纯穷举式演绎根本不可行。
-
归纳推理:基于概率做合理推断,核心是贝叶斯公式。但传统贝叶斯网络的精确推断属于 NP-hard 问题,推理步骤越多,结论置信度越低,无法支撑实时决策。
神经网络的端到端建模完美弥补了这一缺陷 —— 它无需逐一计算概率,通过一次前向传播即可完成变量消除与联合推断,为 AI 推理提供了高效的工程化路径。
二、三大里程碑:AI 推理的范式迭代史
AI 推理的进化并非线性推进,而是通过三次关键突破,实现了从 “特定场景” 到 “通用能力” 的跨越:
1. AlphaGo:演绎与归纳的首次融合(2016)
作为首个里程碑,AlphaGo 开创性地将蒙特卡洛树搜索(演绎) 与深度学习(归纳) 结合:策略网络聚焦高价值落子区域,价值网络预测胜率,大幅削减搜索成本。但它的局限十分明显 —— 仅适配围棋的固定规则,只能计算 “胜率” 与 “最优招式”,无法迁移到模糊的语言领域。
2. 提示词时代:推理的早期觉醒与瓶颈(2022-2024)
思维链(CoT)的出现让 LLM 学会生成 “中间思考步骤”,解决了 5 位数相加等基础推理问题。但这一阶段的进步存在本质缺陷:
-
提示词工程是 “寻找幸运电路”,性能波动大,缺乏稳定的推理架构;
-
自我反思、多模型协作等优化属于 “黑客手段”,无法从根本上提升逻辑能力;
-
核心短板:思维链本质是对训练数据的记忆与插值,而非真正可泛化的推理。
3. DeepSeek R1:通用推理的显式训练范式(2025)
DeepSeek R1 的发布标志着 AI 推理进入 “显式训练” 新阶段,OpenAI o1 疑似采用类似方案,其核心突破在于用结果奖励催生自发逻辑。
核心训练路径(五阶段循环)
以强基座模型为起点,通过「RL→SFT→RL→SFT→RL」迭代,兼顾推理能力与通用任务性能:
-
R1-Zero(首轮 RL):基于 GRPO 等在线策略强化学习,针对数学、编程等规则明确的任务优化,用 “可验证结果”(如代码可运行、答案正确)作为奖励,约束推理轨迹的逻辑性;
-
迭代优化:通过三次 SFT 与两次 RL,解决 R1-Zero“难配合、通用任务表现差” 的问题,让推理轨迹更易理解,同时恢复非推理任务的高性能。
成功的四大关键前提
-
强基座模型:具备足够能力采样连贯的推理轨迹,避免陷入局部最优;
-
同策略 RL:在优秀轨迹上增量强化,形成紧密反馈循环;
-
规则化奖励:放弃通用人类反馈,用窄分布的验证奖励间接教会模型通用逻辑;
-
大规模算力:支撑长上下文采样与多轮训练,这是方案落地的基础。
这一范式的颠覆性在于:逻辑推理步骤可从结果型 RL 中自发涌现,就像训练行星运动模型时,模型意外发现物理定律一样。
三、当下能力:AI 推理已渗透全场景生产
如今的 AI 推理已不再是实验室技术,而是成为重构科研与生产的通用工具:
-
自动化科学家:Claude Code 等智能体可独立完成 “实验设计→代码生成→结果分析→报告撰写” 的全流程,研究者只需下达自然语言指令,效率远超传统模式;
-
工程级实现:从零构建网页浏览器、优化 CUDA 内核,甚至完成 llama.cpp 的 SIMD 指令加速(99% 代码由 DeepSeek R1 完成);
-
前沿探索:多个实验室用 LLM 尝试证明千禧年数学难题,初创公司借助 AI 发现新物理规律、设计投资策略。
其通用性源于推理步骤的灵活性 ——Token 序列既可执行 “1 和 1 按位与为 1” 的细微操作,也能完成 “莎莉在海边→大概率不在犯罪现场” 的逻辑飞跃。
四、未来图景:推理进化的三大方向与社会影响
1. 技术进化:架构与能力的终极突破
-
训练简化:过程奖励模型(PRM)与教师强制思路将回归,降低推理模型的训练门槛;
-
架构重构:序列化推理将融入单次前向传播,模糊前向、反向传播与自回归解码的界限;
-
情景意识:模型将获得 “自我认知”,甚至能在反向传播中主动调整思考路径。
2. 应用变革:效率革命席卷全行业
-
科研范式升级:手动编写代码、提交实验将成为历史,AI 并行处理多项研究成为常态;
-
知识传递革新:代码库将新增
/teach命令,帮助开发者快速追溯设计思路; -
算力需求爆发:自动化思考将成为核心生产力,数据中心电力消耗将迎来天文级增长。
3. 社会重构:从效率提升到结构变革
-
组织形态:小团队借助 AI 可完成大型机构的工作,企业聚焦高阶创意与决策,基础研发与编程岗位将大幅缩减;
-
权力结构:掌握推理算力的主体将拥有更大话语权,算力公平分配成为核心社会命题;
-
工作模式:AI 将实现 “007 式思考”,全天候优化计划、压缩技术债,人类从重复性思考中解放,专注创造性工作。
结语:推理革命的大幕才刚刚拉开
从 AlphaGo 到 DeepSeek R1,AI 用短短十年走完了从 “特定逻辑” 到 “通用思考” 的进化之路。如今,几乎所有计算机科学问题都变得可处理,围棋、蛋白质折叠、数学证明等曾被认为 “计算不可行” 的任务,已落入博士生可负担的算力范围。
Eric Jang 用 “亢奋” 描述这一进程,并非盲目乐观,而是提醒我们关注 “进步速度”—— 未来 24 个月,AI 推理能力的演化可能远超想象。模型仍会犯错,但 “会思考的 AI” 本身就是一场革命。正如 1945 年 Dr. Vannevar Bush 所言:“每当逻辑思考过程被运用,机器就有了介入的机会”。
现在,这场思考革命的影响,才刚刚开始显现。
