李飞飞“空间智能”理念解读

发表时间：2025-11-11 17:47

从语言模型到世界模型：AI需要第二次范式革命

——基于李飞飞“空间智能”思想的技术分析

一、现在的模型是什么

当下主导人工智能的，是以大型语言模型（Large Language Models, LLMs）为核心的一类系统。它们的共同原理是：在大规模数据中，通过概率统计学习“下一个词”“下一个符号”的分布，从而形成语言、图像、声音等内容的生成能力。典型代表包括 GPT-4、Claude 3、Gemini 1.5、LLaMA 3 等。这些模型有几个显著特征：

符号驱动：输入输出都是语言或符号序列；
生成强大：能写文章、编程、翻译、作曲；
多模态延伸：可以“看图说话”或在图片上加文字解释；
规模主导：性能与参数量、训练数据量正相关；
离线训练：主要学习来自互联网的历史数据，而非实时反馈。

这些模型带来了内容创作的革命，也极大推动了人机交互的自然化。但它们并不“理解”世界，只是对语言分布的预测。

二、这些模型的局限

李飞飞称这类模型为“语言智能（linguistic intelligence）”，而非真正的智能。其核心问题是：它们只会描述世界，而不会在世界中行动。

1. 缺乏空间和物理概念。它们能说“球从斜坡上滚下”，但并不知道滚动是速度与重力作用的结果。当被问“哪个杯子更靠近桌边”时，模型只能从文字或像素猜测，而非真正“测量距离”。

2. 缺乏时间连续性。它们在静态语料上学习，无法理解时间的演化。在现实中，智能体必须根据上一秒的状态预测下一秒，这正是语言模型缺失的。

3. 缺乏行动反馈。它们没有“动手”能力，也没有“被世界纠正”的通道。语言错误可重写，但物理错误会导致损害。没有反馈闭环的智能，只能自我强化幻觉。

4. 泛化能力脆弱。语言模型一旦离开训练分布就容易崩溃。在真实环境中（光线变化、噪声干扰、空间布局差异），它们无法稳定工作。这使得今天的AI在写作、绘画、对话上看似“万能”，但在任何涉及真实物理场景的任务——例如机器人操作、交通控制、实验自动化——上都几乎无能为力。

三、我们需要什么样的模型

李飞飞提出的新方向叫做“空间智能（Spatial Intelligence）”。它不是替代语言模型，而是补全智能的另一半——让AI重新拥有身体与世界经验。这样的模型应满足以下基本要求：

生成性（Generative）：能生成一个自洽的三维世界状态。

输出不只是语言或图像，而是世界的物理结构、因果关系和演化过程。
模型应理解质量、力、速度、摩擦、遮挡、能量守恒等规律。

多模态（Multimodal）：能整合视觉、听觉、触觉、动作等感知。

不同感官信息应映射到同一空间坐标中，从而具备立体理解。
例如：机器人看到一只杯子（视觉），听到水声（听觉），感觉滑动（触觉），都指向同一个对象。

交互性（Interactive）：能基于反馈持续修正自身世界模型。

每个动作的结果（例如抓取成功或失败）都用于更新模型的预测。
智能不在于预测静态文本，而在于在动态环境中“活下来”。

李飞飞将这种模型称为“从文字到世界的过渡”。它不是更大的模型，而是更真实的模型。

四、这种模型应该是什么样子

1. 数据层：从语料到经验。新的模型不能只靠文本，需要空间-时间数据：

三维视频、深度图、惯性传感、触觉数据；
动作-反馈对（action-feedback pairs）；
仿真环境 + 真实传感器采集的混合数据集。

2. 模型层：世界表示的核心

模型结构应能显式表示几何结构与因果依赖，而非仅在序列上做注意力计算；
内部表征不再是token序列，而是状态向量场（state field）；
预测目标不是下一个词，而是下一帧的世界状态。

3. 控制层：实时性与安全性

推理延迟需控制在80毫秒以内，才能与人类交互同步；
必须具备“失败检测”和“安全停机”机制；
训练目标不再是“最大似然”，而是“稳定执行率”。

这种模型的核心不是语言的流畅度，而是世界的一致性。李飞飞把它总结成一句话：“不是生成一个漂亮的世界，而是在陌生世界中生存。”

五、为什么必须是那种模型

智能的本质是行动。智能不是存储知识，而是对环境作出稳定反应。语言模型停留在表达层，而人类智能是具身（embodied）的。要让AI跨入真实世界，必须具备物理理解与行动能力。
语言模型的收益趋缓。扩大数据和参数规模已难带来质变。真正的突破需要在认知结构上重建因果与空间推理能力。
现实世界的应用需求。从自动驾驶到制造机器人、医疗手术、家庭助理——所有关键AI场景都需要空间智能。如果AI不能在物理世界中理解、反应、修正，它就永远只能是“虚拟秘书”，而不是“世界伙伴”。
责任与伦理的必然要求。当AI能行动、能触碰现实，它的每一个决策都对应物理后果。因此，模型必须具备解释性、可控性和实时反馈能力。空间智能的架构天然包含这种可追踪机制。

六、从语言智能到世界智能

李飞飞在World Labs 的技术路径上设定了一个具体目标：到 2027 年第三季度，单模型、零样本，在真实机器人上完成 I-PERACT100 任务，成功率 ≥ 92%，延迟 ≤ 80 毫秒。这是“语言智能”向“世界智能”过渡的临界点。它定义了智能能否进入现实的门槛。当一个模型能在陌生厨房中拿起鸡蛋、打开炉灶、倒油、清洗餐具，且反应速度与人同步、错误率低于 8%，那一刻，AI 才真正开始理解“世界”。

七、结语。今天的AI能写出宇宙的诗，却打不开一扇门。它能模拟人类的语言，却无法承受重力、摩擦、失败和风险。语言智能解决了表达问题；空间智能要解决生存问题。AI 的下一次革命，不是让机器更会说，而是让机器学会在世界中站稳。这场变革不会靠更多数据堆出来，而要靠新的结构、新的反馈方式和新的哲学——从符号推理回到具身存在，从词汇的智能走向世界的智能。

说到底，李飞飞要做的，不是再造一个“更会说话的AI”，而是让AI从“会说”走向“会做”。前者是语言的智能，后者是世界的智能。语言智能让机器学会表达，而空间智能让机器真正进入生活——能理解距离、重量、动作、因果，能在陌生的厨房里找鸡蛋、洗碗、收拾桌子，能像一个可靠的帮手一样“在场”。这才是人工智能的下一步：从“能说”到“能干”，从屏幕上的句子，走向世界里的行动。

从根本上看，“空间智能”的出现，意味着人工智能第一次要从纯语言、纯软件系统，跨入与物理世界直接耦合的阶段。过去的AI存在于“屏幕的平面”上——它理解的是文本、图像、视频，所有输入输出都在符号空间中完成；而现在的目标，是让这种智能通过具身化载体（机器人、传感系统、AR/VR环境等）去触碰、测量、改变现实。这不仅是功能的延伸，更是认知结构的重构。语言智能靠统计学习描述世界，而空间智能必须靠感知与行动去验证世界。也就是说，它不再是一个“回答者”，而是一个“参与者”；不再是软件接口，而是现实接口。

AI因此不再仅仅是计算机科学的产物，而成为工程学、神经科学、物理学的交汇点。它必须理解重量、惯性、摩擦、延迟这些语言模型永远不会“体验”的概念。只有当AI能与硬件协同，在时空连续的环境中实时感知、反应、修正——它才算真正走出屏幕，进入世界。换句话说，语言模型让机器有了“思想的形状”，而空间智能要让机器获得“身体的存在”。