汪翔

注册日期:2009-10-24
访问总量:5310201次

menu网络日志正文menu

李飞飞“空间智能”理念解读


发表时间:+-

从语言模型到世界模型:AI需要第二次范式革命

——基于李飞飞“空间智能”思想的技术分析

一、现在的模型是什么

当下主导人工智能的,是以大型语言模型(Large Language Models, LLMs)为核心的一类系统。它们的共同原理是:在大规模数据中,通过概率统计学习“下一个词”“下一个符号”的分布,从而形成语言、图像、声音等内容的生成能力。典型代表包括 GPT-4、Claude 3、Gemini 1.5、LLaMA 3 等。这些模型有几个显著特征:

  1. 符号驱动:输入输出都是语言或符号序列;

  2. 生成强大:能写文章、编程、翻译、作曲;

  3. 多模态延伸:可以“看图说话”或在图片上加文字解释;

  4. 规模主导:性能与参数量、训练数据量正相关;

  5. 离线训练:主要学习来自互联网的历史数据,而非实时反馈。

这些模型带来了内容创作的革命,也极大推动了人机交互的自然化。但它们并不“理解”世界,只是对语言分布的预测。


二、这些模型的局限

李飞飞称这类模型为“语言智能(linguistic intelligence)”,而非真正的智能。其核心问题是: 它们只会描述世界,而不会在世界中行动。

1. 缺乏空间和物理概念。它们能说“球从斜坡上滚下”,但并不知道滚动是速度与重力作用的结果。当被问“哪个杯子更靠近桌边”时,模型只能从文字或像素猜测,而非真正“测量距离”。

2. 缺乏时间连续性。它们在静态语料上学习,无法理解时间的演化。在现实中,智能体必须根据上一秒的状态预测下一秒,这正是语言模型缺失的。

3. 缺乏行动反馈。它们没有“动手”能力,也没有“被世界纠正”的通道。语言错误可重写,但物理错误会导致损害。没有反馈闭环的智能,只能自我强化幻觉。

4. 泛化能力脆弱。语言模型一旦离开训练分布就容易崩溃。在真实环境中(光线变化、噪声干扰、空间布局差异),它们无法稳定工作。这使得今天的AI在写作、绘画、对话上看似“万能”, 但在任何涉及真实物理场景的任务——例如机器人操作、交通控制、实验自动化——上都几乎无能为力。


三、我们需要什么样的模型

李飞飞提出的新方向叫做“空间智能(Spatial Intelligence)”。它不是替代语言模型,而是补全智能的另一半——让AI重新拥有身体与世界经验。这样的模型应满足以下基本要求:

  1. 生成性(Generative):能生成一个自洽的三维世界状态。

    • 输出不只是语言或图像,而是世界的物理结构、因果关系和演化过程。

    • 模型应理解质量、力、速度、摩擦、遮挡、能量守恒等规律。

  2. 多模态(Multimodal):能整合视觉、听觉、触觉、动作等感知。

    • 不同感官信息应映射到同一空间坐标中,从而具备立体理解。

    • 例如:机器人看到一只杯子(视觉),听到水声(听觉),感觉滑动(触觉),都指向同一个对象。

  3. 交互性(Interactive):能基于反馈持续修正自身世界模型。

    • 每个动作的结果(例如抓取成功或失败)都用于更新模型的预测。

    • 智能不在于预测静态文本,而在于在动态环境中“活下来”。

李飞飞将这种模型称为“从文字到世界的过渡”。它不是更大的模型,而是更真实的模型。


四、这种模型应该是什么样子

1. 数据层:从语料到经验。新的模型不能只靠文本,需要空间-时间数据:

  • 三维视频、深度图、惯性传感、触觉数据;

  • 动作-反馈对(action-feedback pairs);

  • 仿真环境 + 真实传感器采集的混合数据集。

2. 模型层:世界表示的核心

  • 模型结构应能显式表示几何结构与因果依赖,而非仅在序列上做注意力计算;

  • 内部表征不再是token序列,而是状态向量场(state field);

  • 预测目标不是下一个词,而是下一帧的世界状态。

3. 控制层:实时性与安全性

  • 推理延迟需控制在80毫秒以内,才能与人类交互同步;

  • 必须具备“失败检测”和“安全停机”机制;

  • 训练目标不再是“最大似然”,而是“稳定执行率”。

这种模型的核心不是语言的流畅度,而是世界的一致性。李飞飞把它总结成一句话:“不是生成一个漂亮的世界,而是在陌生世界中生存。”


五、为什么必须是那种模型

  1. 智能的本质是行动。智能不是存储知识,而是对环境作出稳定反应。语言模型停留在表达层,而人类智能是具身(embodied)的。要让AI跨入真实世界,必须具备物理理解与行动能力。

  2. 语言模型的收益趋缓。扩大数据和参数规模已难带来质变。真正的突破需要在认知结构上重建因果与空间推理能力。

  3. 现实世界的应用需求。从自动驾驶到制造机器人、医疗手术、家庭助理——所有关键AI场景都需要空间智能。如果AI不能在物理世界中理解、反应、修正,它就永远只能是“虚拟秘书”,而不是“世界伙伴”。

  4. 责任与伦理的必然要求。当AI能行动、能触碰现实,它的每一个决策都对应物理后果。 因此,模型必须具备解释性、可控性和实时反馈能力。空间智能的架构天然包含这种可追踪机制。


六、从语言智能到世界智能

李飞飞在World Labs 的技术路径上设定了一个具体目标:到 2027 年第三季度,单模型、零样本,在真实机器人上完成 I-PERACT100 任务,成功率 ≥ 92%,延迟 ≤ 80 毫秒。这是“语言智能”向“世界智能”过渡的临界点。它定义了智能能否进入现实的门槛。当一个模型能在陌生厨房中拿起鸡蛋、打开炉灶、倒油、清洗餐具,且反应速度与人同步、错误率低于 8%,那一刻,AI 才真正开始理解“世界”。


七、结语。今天的AI能写出宇宙的诗,却打不开一扇门。它能模拟人类的语言,却无法承受重力、摩擦、失败和风险。语言智能解决了表达问题;空间智能要解决生存问题。AI 的下一次革命,不是让机器更会说,而是让机器学会在世界中站稳。这场变革不会靠更多数据堆出来,而要靠新的结构、新的反馈方式和新的哲学——从符号推理回到具身存在,从词汇的智能走向世界的智能。


说到底,李飞飞要做的,不是再造一个“更会说话的AI”,而是让AI从“会说”走向“会做”。前者是语言的智能,后者是世界的智能。语言智能让机器学会表达,而空间智能让机器真正进入生活——能理解距离、重量、动作、因果,能在陌生的厨房里找鸡蛋、洗碗、收拾桌子,能像一个可靠的帮手一样“在场”。这才是人工智能的下一步:从“能说”到“能干”,从屏幕上的句子,走向世界里的行动。


从根本上看,“空间智能”的出现,意味着人工智能第一次要从纯语言、纯软件系统,跨入与物理世界直接耦合的阶段。过去的AI存在于“屏幕的平面”上——它理解的是文本、图像、视频,所有输入输出都在符号空间中完成;而现在的目标,是让这种智能通过具身化载体(机器人、传感系统、AR/VR环境等)去触碰、测量、改变现实。这不仅是功能的延伸,更是认知结构的重构。语言智能靠统计学习描述世界,而空间智能必须靠感知与行动去验证世界。也就是说,它不再是一个“回答者”,而是一个“参与者”;不再是软件接口,而是现实接口。


AI因此不再仅仅是计算机科学的产物,而成为工程学、神经科学、物理学的交汇点。它必须理解重量、惯性、摩擦、延迟这些语言模型永远不会“体验”的概念。只有当AI能与硬件协同,在时空连续的环境中实时感知、反应、修正——它才算真正走出屏幕,进入世界。换句话说,语言模型让机器有了“思想的形状”,而空间智能要让机器获得“身体的存在”。


浏览(71)
thumb_up(0)
评论(1)
  • 当前共有1条评论
  • 汪翔

    这应该一直也是人们在努力的方向吧。

    感觉不到什么革命性的,“革命”。

    只是为她下一步要做的,敲响的“战鼓”,发出的“宣战书”。

    应该是很难的一步。涉及到科技的方方面面。

    也是下一步机器人想要实现的目标。

    屏蔽 举报回复