2026 年,空间智能已成为 AI 领域公认的核心前沿方向,产业布局、资本投入与评测体系迭代同步提速,推动该领域从理论探索迈入产业化初期。自李飞飞 2024 年创办 World Labs 以来,空间智能概念迅速席卷业界,相关研究与落地应用持续涌现。但当前学界对空间智能的探索多分散于不同任务场景,或聚焦智能体架构、或单独探讨空间领域问题,未能将智能体能力与空间任务形成统一整合。要让 AI Agent 真正实现从 “感知” 到 “行动” 的跨越,还需针对性补足关键能力短板。
空间智能热潮下的产业与研究现状
空间智能的崛起并非偶然,而是技术积累与产业需求共同推动的结果。从产业布局到学术探索,该领域已呈现出多点突破、全面提速的发展态势。
1. 产业端:World Labs 引领,巨头争相布局
李飞飞创办的 World Labs 无疑是空间智能领域的 “风向标”,成立仅 16 个月就累计完成约 13 亿美元融资,2026 年 2 月的新一轮融资规模达 10 亿美元,投资方涵盖英伟达、AMD、Autodesk 等产业巨头及 a16z 等顶级投资机构,足见行业对该方向的高度认可。
在技术落地层面,World Labs 持续输出重磅成果:2025 年 11 月至 2026 年 1 月,先后发布 Marble 多模态世界模型和 World API。其中,Marble 可基于文本、图像、视频及粗粒度 3D 布局,完成 3D 世界的生成、编辑与导出;World API 则将可漫游 3D 世界的能力转化为标准化接口,大幅降低了空间智能的落地应用门槛,让更多企业和开发者能够快速接入空间智能技术。
2. 学术端:多方向齐头并进,聚焦核心难题
在 World Labs 的带动下,学界对空间智能的研究热情持续高涨,涌现出一系列覆盖不同核心方向的研究成果,逐步完善空间智能的理论体系:
-
空间超感知:2025 年 11 月,Yann LeCun、李飞飞、Rob Fergus 等顶尖学者联合提出 “空间超感知” 概念,通过对时空特征的细粒度建模,实现视频中动态场景的空间结构、运动轨迹与物理约束的一体化理解,为空间智能提供了全新的理论范式;
-
具身空间推理:2026 年 3 月,李飞飞与贾佳俊团队联合提出 Reflective Test-Time Planning 框架,让具身智能体具备类人反思能力 —— 通过行动前的模拟预判与行动后的复盘优化,显著提升智能体在空间任务中的决策效率与容错能力;
-
空间表征:2025 年 11 月,上海 AI Lab 等机构提出 G²VLM 系统,该系统创新性地融合视觉感知、几何推理与语言理解模块,能够同时完成 3D 空间重建和高级空间推理,有效解决了传统模型在空间任务中 “感知与推理脱节” 的核心问题,实现对 3D 场景的细粒度分析与语义交互。
关键瓶颈:Spatial AI Agent 的 “能力缺口” 何在?
尽管空间智能领域成果颇丰,但当前的 Spatial AI Agent 距离实现真正的自主主动行动仍有差距。2026 年 2 月,空间智能公司 AtlasPro AI 发布的《From Perception to Action: Spatial AI Agents and World Models》研究(梳理 2018—2026 年 2000 余篇相关文献,引用 742 篇核心论文)指出,Spatial AI Agent 可划分为 Spatial Task(空间任务)、Agentic Capability(智能体能力)和 Spatial Scale(空间尺度)三个维度,而当前研究的核心短板,正是未能在这三个维度上形成统一整合,导致智能体在空间任务中难以顺畅落地行动。
具体来看,要实现从 “感知” 到 “行动” 的跨越,Spatial AI Agent 还需补足三大核心能力:
1. 层级化记忆体系:支撑复杂空间任务的 “长期记忆”
空间任务往往具有多步骤、长周期的特点,需要智能体能够持续存储、调用不同类型的空间信息,而当前多数智能体的记忆系统缺乏层级划分,难以满足复杂空间行动的需求。理想的层级记忆体系应包含:
-
瞬时记忆:存储当前空间场景的实时感知信息,如物体位置、环境变化等,支撑即时决策;
-
短期记忆:记录近期行动轨迹与任务进度,帮助智能体衔接多步骤操作,避免重复或遗漏;
-
长期记忆:沉淀空间常识、任务模板、环境特征等稳定信息,如 “房间布局的常见规律”“特定物体的使用场景”,助力智能体快速适应新的空间环境,提升决策效率。
缺乏这样的层级记忆体系,智能体容易在复杂空间任务中 “健忘”,无法形成连贯的行动逻辑,难以完成需要长期规划的任务。
2. GNN-LLM 集成推理:打破 “感知与推理脱节” 的壁垒
空间任务不仅需要智能体 “看懂” 空间场景(感知),更需要 “想明白” 行动逻辑(推理),而传统模型往往存在感知与推理割裂的问题 —— 要么擅长空间特征提取但缺乏逻辑推理能力,要么具备强推理能力但无法精准理解空间结构。
GNN(图神经网络)在处理空间拓扑关系、几何结构上具有天然优势,能够高效建模物体间的空间关联;而 LLM(大语言模型)则擅长逻辑推理、任务规划与语义理解。将二者深度集成,可让智能体同时具备精准的空间感知能力和强大的逻辑推理能力,实现 “看懂空间 + 想清逻辑” 的统一,进而规划出合理、可行的行动路径。当前相关研究尚处于起步阶段,如何实现二者的无缝协同,是突破空间推理瓶颈的关键。
3. 精准世界模型:预判行动后果,降低试错成本
自主行动的核心是 “能够预判行动带来的结果”,而这离不开高质量的世界模型支持。世界模型的核心作用,是让智能体基于当前空间状态,模拟不同行动方案可能产生的后果,从而选择最优解,避免盲目行动带来的风险与试错成本。
当前部分世界模型虽能实现 3D 场景生成,但在行动后果预测的精准度上仍有不足 —— 难以准确模拟物理规律(如物体碰撞、受力变化)、环境动态变化(如他人行动影响)等复杂因素。提升世界模型对行动后果的预测精度,让智能体 “未行动先预判”,是其实现安全、高效自主行动的重要前提。
总结:从分散探索到统一整合,空间智能的下一征程
2026 年,空间智能已从概念炒作迈入产业化初期,产业端的资本布局与学术端的技术突破形成良性互动,推动领域快速发展。但要让 Spatial AI Agent 真正实现自主行动,关键在于打破当前 “分散探索” 的格局,在 Spatial Task、Agentic Capability 和 Spatial Scale 三个维度上形成统一整合。
层级化记忆体系、GNN-LLM 集成推理、精准世界模型,这三大核心能力的补足,将成为空间智能突破的关键方向。未来,随着这些技术瓶颈的逐步攻克,Spatial AI Agent 有望在机器人导航、智能家居控制、虚拟空间交互、工业场景操作等多个领域实现规模化落地,真正让 AI 从 “感知世界” 走向 “改造世界”。
对于行业参与者而言,无论是聚焦技术研发的企业与科研机构,还是布局应用场景的开发者,把握这三大核心方向,将成为在空间智能赛道抢占先机的关键。空间智能的下一征程,既是技术整合的征程,也是 AI 从 “被动响应” 到 “主动行动” 的跨越征程。