李飞飞“空间智能”理念解读
从语言模型到世界模型:AI需要第二次范式革命
——基于李飞飞“空间智能”思想的技术分析
一、现在的模型是什么
当下主导人工智能的,是以大型语言模型(Large Language Models, LLMs)为核心的一类系统。它们的共同原理是:在大规模数据中,通过概率统计学习“下一个词”“下一个符号”的分布,从而形成语言、图像、声音等内容的生成能力。典型代表包括 GPT-4、Claude 3、Gemini 1.5、LLaMA 3 等。这些模型有几个显著特征:
符号驱动:输入输出都是语言或符号序列;
生成强大:能写文章、编程、翻译、作曲;
多模态延伸:可以“看图说话”或在图片上加文字解释;
规模主导:性能与参数量、训练数据量正相关;
离线训练:主要学习来自互联网的历史数据,而非实时反馈。
这些模型带来了内容创作的革命,也极大推动了人机交互的自然化。但它们并不“理解”世界,只是对语言分布的预测。
二、这些模型的局限
李飞飞称这类模型为“语言智能(linguistic intelligence)”,而非真正的智能。其核心问题是: 它们只会描述世界,而不会在世界中行动。
1. 缺乏空间和物理概念。它们能说“球从斜坡上滚下”,但并不知道滚动是速度与重力作用的结果。当被问“哪个杯子更靠近桌边”时,模型只能从文字或像素猜测,而非真正“测量距离”。
2. 缺乏时间连续性。它们在静态语料上学习,无法理解时间的演化。在现实中,智能体必须根据上一秒的状态预测下一秒,这正是语言模型缺失的。
3. 缺乏行动反馈。它们没有“动手”能力,也没有“被世界纠正”的通道。语言错误可重写,但物理错误会导致损害。没有反馈闭环的智能,只能自我强化幻觉。
4. 泛化能力脆弱。语言模型一旦离开训练分布就容易崩溃。在真实环境中(光线变化、噪声干扰、空间布局差异),它们无法稳定工作。这使得今天的AI在写作、绘画、对话上看似“万能”, 但在任何涉及真实物理场景的任务——例如机器人操作、交通控制、实验自动化——上都几乎无能为力。
三、我们需要什么样的模型
李飞飞提出的新方向叫做“空间智能(Spatial Intelligence)”。它不是替代语言模型,而是补全智能的另一半——让AI重新拥有身体与世界经验。这样的模型应满足以下基本要求:
生成性(Generative):能生成一个自洽的三维世界状态。
输出不只是语言或图像,而是世界的物理结构、因果关系和演化过程。
模型应理解质量、力、速度、摩擦、遮挡、能量守恒等规律。
多模态(Multimodal):能整合视觉、听觉、触觉、动作等感知。
不同感官信息应映射到同一空间坐标中,从而具备立体理解。
例如:机器人看到一只杯子(视觉),听到水声(听觉),感觉滑动(触觉),都指向同一个对象。
交互性(Interactive):能基于反馈持续修正自身世界模型。
每个动作的结果(例如抓取成功或失败)都用于更新模型的预测。
智能不在于预测静态文本,而在于在动态环境中“活下来”。
李飞飞将这种模型称为“从文字到世界的过渡”。它不是更大的模型,而是更真实的模型。
四、这种模型应该是什么样子
1. 数据层:从语料到经验。新的模型不能只靠文本,需要空间-时间数据:
三维视频、深度图、惯性传感、触觉数据;
动作-反馈对(action-feedback pairs);
仿真环境 + 真实传感器采集的混合数据集。
2. 模型层:世界表示的核心
模型结构应能显式表示几何结构与因果依赖,而非仅在序列上做注意力计算;
内部表征不再是token序列,而是状态向量场(state field);
预测目标不是下一个词,而是下一帧的世界状态。
3. 控制层:实时性与安全性
推理延迟需控制在80毫秒以内,才能与人类交互同步;
必须具备“失败检测”和“安全停机”机制;
训练目标不再是“最大似然”,而是“稳定执行率”。
这种模型的核心不是语言的流畅度,而是世界的一致性。李飞飞把它总结成一句话:“不是生成一个漂亮的世界,而是在陌生世界中生存。”
五、为什么必须是那种模型
智能的本质是行动。智能不是存储知识,而是对环境作出稳定反应。语言模型停留在表达层,而人类智能是具身(embodied)的。要让AI跨入真实世界,必须具备物理理解与行动能力。
语言模型的收益趋缓。扩大数据和参数规模已难带来质变。真正的突破需要在认知结构上重建因果与空间推理能力。
现实世界的应用需求。从自动驾驶到制造机器人、医疗手术、家庭助理——所有关键AI场景都需要空间智能。如果AI不能在物理世界中理解、反应、修正,它就永远只能是“虚拟秘书”,而不是“世界伙伴”。
责任与伦理的必然要求。当AI能行动、能触碰现实,它的每一个决策都对应物理后果。 因此,模型必须具备解释性、可控性和实时反馈能力。空间智能的架构天然包含这种可追踪机制。
六、从语言智能到世界智能
李飞飞在World Labs 的技术路径上设定了一个具体目标:到 2027 年第三季度,单模型、零样本,在真实机器人上完成 I-PERACT100 任务,成功率 ≥ 92%,延迟 ≤ 80 毫秒。这是“语言智能”向“世界智能”过渡的临界点。它定义了智能能否进入现实的门槛。当一个模型能在陌生厨房中拿起鸡蛋、打开炉灶、倒油、清洗餐具,且反应速度与人同步、错误率低于 8%,那一刻,AI 才真正开始理解“世界”。
七、结语。今天的AI能写出宇宙的诗,却打不开一扇门。它能模拟人类的语言,却无法承受重力、摩擦、失败和风险。语言智能解决了表达问题;空间智能要解决生存问题。AI 的下一次革命,不是让机器更会说,而是让机器学会在世界中站稳。这场变革不会靠更多数据堆出来,而要靠新的结构、新的反馈方式和新的哲学——从符号推理回到具身存在,从词汇的智能走向世界的智能。
说到底,李飞飞要做的,不是再造一个“更会说话的AI”,而是让AI从“会说”走向“会做”。前者是语言的智能,后者是世界的智能。语言智能让机器学会表达,而空间智能让机器真正进入生活——能理解距离、重量、动作、因果,能在陌生的厨房里找鸡蛋、洗碗、收拾桌子,能像一个可靠的帮手一样“在场”。这才是人工智能的下一步:从“能说”到“能干”,从屏幕上的句子,走向世界里的行动。
从根本上看,“空间智能”的出现,意味着人工智能第一次要从纯语言、纯软件系统,跨入与物理世界直接耦合的阶段。过去的AI存在于“屏幕的平面”上——它理解的是文本、图像、视频,所有输入输出都在符号空间中完成;而现在的目标,是让这种智能通过具身化载体(机器人、传感系统、AR/VR环境等)去触碰、测量、改变现实。这不仅是功能的延伸,更是认知结构的重构。语言智能靠统计学习描述世界,而空间智能必须靠感知与行动去验证世界。也就是说,它不再是一个“回答者”,而是一个“参与者”;不再是软件接口,而是现实接口。
AI因此不再仅仅是计算机科学的产物,而成为工程学、神经科学、物理学的交汇点。它必须理解重量、惯性、摩擦、延迟这些语言模型永远不会“体验”的概念。只有当AI能与硬件协同,在时空连续的环境中实时感知、反应、修正——它才算真正走出屏幕,进入世界。换句话说,语言模型让机器有了“思想的形状”,而空间智能要让机器获得“身体的存在”。
