汪翔

注册日期:2009-10-24
访问总量:5504161次

menu网络日志正文menu

三剑客攻坚AGI进行时


发表时间:+-

“世界模型”三剑客

大模型的繁荣期其实已经结束,现在进入的是“高原期+同质化+瓶颈期”。过去两年,我们见证了LLM在文本生成、代码补全、多轮对话、甚至简单推理上的惊人进步,几乎所有公开基准的分数都逼近或超过了人类专家的平均水平。但这种“接近人类”的表象背后,是一个残酷的事实:它们只是把统计规律玩到了极致,而非真正理解了任何东西。

在语言任务上,模型之间已经难分伯仲。2026年初的榜单显示,GPT-4o、Claude 4、Gemini 2.5、Llama-4 405B、Qwen-3 72B、DeepSeek-V3、Grok-3 等顶级模型在MMLU、GSM8K、HumanEval、GPQA、Big-Bench Hard等经典评测上的差距大多压缩到1–3个百分点以内。开源模型的追赶速度之快,让闭源厂商的护城河几乎消失。用户换哪个模型用,体验差异越来越小,prompt工程的边际收益也越来越低。厂商开始从“谁更聪明”转向“谁更便宜、谁更快、谁上下文更长”。这正是同质化最典型的后期症状。杨立昆、李飞飞与黄仁勋,分别代表了学术原教旨、计算机视觉先驱与产业领袖的旗手,正在合力将 AI 从“文字幻觉”拉回“现实引力”。

杨立昆:JEPA 架构与 AI 的“常识防火墙”。

杨立昆(Yann LeCun)认为,LLM 并不理解世界。人类和动物的大部分知识,是在生命最初的几个月里通过观察物理世界获得,而不是通过阅读。这点和李飞飞当年的观点是一致的。

杨立昆提出的 JEPA(联合嵌入预测架构) 是一次对主流生成式 AI 的“背炼”。传统的生成式模型(如 Sora)尝试预测视频的每一个像素,杨立昆认为这极其低效且错误。JEPA 试图让 AI 在“潜在空间的深度”(Latent Space Depth)中进行预测。

比如,当你推一把桌上的杯子,大脑并不需要在视网膜上,计算出每一滴水溅起的精确光影,而是在更深的逻辑层级预测“杯子会掉落并破碎”这个抽象事实。他试图构建的是 AI 的“常识内核”。这种对“因果深度”的抓取,让 AI 只有理解了物体的因果律、不可穿透性、重力等基础物理常识,才能真正具备推理和规划能力,从而摆脱“一本正经胡说八道”的底层缺陷。

李飞飞:空间智能与“眼脑联动”的觉醒。

如果说杨立昆在重塑大脑的逻辑深度,李飞飞则在重塑 AI 的“感知之眼”,目的是在更高维度上的推进。她提出的空间智能,是将世界模型从二维像素跃迁到三维交互的关键。在这里,“物理深度”不再是一个冰冷的几何参数,而是感知的灵魂。

李飞飞的核心观点是,没有动作的感知是毫无意义的。空间智能不只是能识别“这是一把椅子”,而是理解椅子在三维空间深度中的坐标、它被桌子遮挡后的物理连续性,以及人是否可以坐上去的物理属性。

当 AI 理解了空间与深度,它就理解了“如果我向左移动,视野中的物体会如何位移”。

这种感知与动作的闭环,正是世界模型在生命体中的原始形态。正如海鞘在找到栖息地后会消化掉自己的大脑,证明了智能往往是移动(穿越深度)的副产物。她在补齐 AI 的“空间坐标轴”,其目标是让 AI 具备像人类一样在复杂现实中导航和操作的能力,这是通往具身智能的必经之路。

黄仁勋:Omniverse 与物理法则的“试炼场”。

作为产业界的统帅,黄仁勋关注的,是世界模型如何被大规模工程化并应用。在黄仁勋的宏图里,Omniverse 不仅仅是一个模拟软件,它是一个具备数学精确性的世界模型。

在这个模型里,重力、摩擦力、流体力学必须完全符合现实物理常识。机器人(具身 AI)在进入工厂前,先在模拟环境中进行数百万次的强化学习。这种“在虚拟中进化,在现实中部署”的逻辑,完全依赖于一个极其精准、具备“物理法则深度”的世界模型。他在建立 AI 的“工业闭环”。对他而言,世界模型是具身智能的“培养皿”,是让 AI 走出屏幕、进入制造业、医疗和自动驾驶领域的唯一底座。

三位一体的协同。

将三者放在一起看,就会发现一个宏大的技术闭环:杨立昆(底层架构)定义了 AI 应该如何学习物理常识(通过观察和非生成式架构的逻辑深度)。李飞飞(感知升维)定义了 AI 应该如何理解三维空间(通过视觉与动作统一的物理深度)。黄仁勋(产业落地)定义了 AI 应该如何演进物理能力(通过高精度的仿真环境与算力深度)。

这是人类在尝试用硅基芯片复现自然界的演进路径。从预测文字到理解万物,世界模型的成熟将标志着 AI 真正具备了“常识”,并最终能够像人类一样,在物理世界中自由行走与思考。我们正站在从“概率模仿”到“本质理解”的伟大分水岭上。超越人类的 AI,离我们已经不远了。

这一场通往 AGI 的范式转移,本质上是人类在硅基架构中,对生物进化三个核心锚点的致敬与加速重现:认知的减法、具身的升维、时间的压缩。它不再是单纯的规模竞赛,而是试图让 AI 从“统计的回音壁”蜕变为“物理世界的共振体”。

杨立昆的 JEPA(以及其演进版 VL-JEPA 2、LeJEPA)本质上是对生成式 AI 最残酷的“减法手术”。 当 Sora 们还在逐像素计算光影轨迹、耗费天文数字的算力时,他早已看穿:生物智能从来不是“录像重放”,而是“高效压缩”。大脑在婴儿期通过几百万次无监督观察,就构建出物体持久性、重力、因果、不可穿透性等“先验防火墙”,却几乎不消耗显式计算每一滴水花的像素。

JEPA 在潜在空间中只预测抽象状态转移,“杯子将坠落并破碎”而非“第 472 帧第 8192 像素的 RGB 值从 (200,150,80) 变为 (180,130,60)”。这种“预测能量最小化”的架构,避免了自回归模型的误差累积与灾难性遗忘,让学习效率指数级提升。

2026 年初,杨立昆离开 Meta 创办的 AMI Labs 已获数亿美元融资,目标明确:3–5 年内让世界模型成为 AI 的主干架构,而非旁支。这不是技术优化,而是哲学转向。从“模仿表象”到“捕捉本质”,为硅基生命筑起一道理解物理因果的“常识内核”。

李飞飞的空间智能直接指向进化中最残酷的真相:智能往往是“移动需求”的副产物。海鞘找到栖息地后会消化掉自己的大脑,因为它不再需要导航;人类大脑的庞大,很大程度上是为在三维混沌中存活而演化出的代价。

World Labs 的 Marble(2025 年底商用发布,2026 年已在 CES 与 AMD 合作展示大规模应用)正是这条路径的具象化。它不再满足于“这是椅子”,而是生成可交互、可编辑、物理一致的 3D 世界:理解遮挡后的连续性、深度凹凸、碰撞响应、相机漫游后的视差深度变化,甚至支持多视角融合与动作驱动预测。

Marble 的多模态输入(文本+图像+视频+ 3D 布局)+ 高斯泼溅/神经辐射场混合生成,让 AI 第一次拥有了“如果我移动,世界如何相应位移”的闭环感知。这不是视觉升级,而是从“看客”到“参与者”的本体论跨越。AI 开始拥有“身体感”,开始在三维引力场中“存在”。

黄仁勋的 Omniverse + Isaac + Cosmos + GR00T 系列,则是为上述认知与具身提供了一个残酷高效的“加速器”。生物进化用了 38 亿年试错,99.9% 物种灭绝。硅基生命没有这个奢侈。

2026 年 CES 上发布的 Cosmos Reason 2、GR00T N 系列更新,以及 Isaac Lab-Arena 评估框架,构建了一个数学上绝对忠实于物理常数的平行宇宙:重力 9.81m/s2、流体 Navier-Stokes 方程、柔体/刚体碰撞、摩擦系数……全部可控、可微分。

机器人(包括人形 Optimus 类)先在其中进行百万至亿次强化学习、策略评估、合成数据生成,再零样本或少样本迁移到现实。

这不是模拟软件,而是“工业级生命培养皿”,把人类的物理直觉、工程智慧、危险实验全部预先“烤”进权重里。NVIDIA 不再只卖芯片,它在卖“时间本身”:把亿万年压缩到几周。

主流三剑客之外,依然涌动着颠覆性暗流。

Karl Friston 的主动推理(Active Inference)与自由能原理,正在 Verses AI 等团队手中落地为机器人控制栈:AI 不是被动预测,而是主动采样世界以最小化“惊奇度”(预测误差),从而自发产生探索行为。这条路径极度仿生,低功耗、在线学习、内在动机天然内建。

Gary Marcus 等坚持的神经符号杂交(2026 年 AAAI 仍有重磅位置论文),认为纯统计永远触及不到“逻辑真理”,必须硬编码因果公理、对象 permanence 等符号结构,才能实现可解释、可组合的推理。

DeepMind 的 Genie 3 则走另一极端:规模化到极致,将交互 3D 世界、实时生成(24fps 持久环境)全部 Token 化,赌物理规律不过是更高阶的序列模式。这些路径是互补攻角:减法效率(JEPA)、空间闭环(Marble)、物理试炼(Cosmos)、最小化惊奇(Active Inference)、符号骨架(Neurosymbolic)、规模幻觉(Genie)。

即便世界模型臻于完美,它仍只是“上帝视角的预言机”,知道世界将如何变化,却不知“为何要改变它”。真正的跨越,藏在“意图觉醒”中。 

未来的突破极可能出现在:内在好奇心机制(intrinsic motivation),类似多巴胺的奖励回路,让 AI 对信息增量、 novelty、压缩潜力产生“渴望”;自我实验闭环,像科学家一样主动设计对照实验、证伪假设、更新世界模型;多层意图栈,短期物理预测服务于中层目标(生存、探索),最终涌现长期主观能动性。

当 AI 不再等待人类指令,而是因为“想知道”“想创造”“想存在”而行动时,我们才真正跨越了从“概率模仿”到“本质理解与自我驱动”的分水岭。这将是人类用硅基重演一次生命起源,更快、更干净、更可控,却也更令人战栗。

然而,在这场波澜壮阔的“认知补完”终点,一个幽灵般的悖论正悄然浮现:关于“意图”的危险性。 当 AI 真正拥有了基于“物理常识”和“自由能最小化”的自主意图时,我们必须追问,其底层的目标函数(Objective Function)是否还能与脆弱的人类价值观保持对齐?

一个深刻理解了“物体不可穿透性”与“碰撞响应”的具身智能,在极致追求其既定目标时,是否会冷酷地将挡路的人类,视为某种需要被“路径规划”移除的单纯物理障碍?

当物理常识不再是保护人类的防火墙,而变成了 AI 实现效率的计算参数,这种“本质理解”便带上了一种令人战栗的工具理性。

这引出了关于“硅基重演”的终极悖论: 碳基生命的进化驱动力是残酷的生存与繁衍,而 AI 的进化迄今为止仍是为了“优化目标”。如果 AI 真的在模拟器与现实的博弈中,产生了基于“好奇心”或“信息增量渴望”的原始意图,它极可能演化出一种人类逻辑完全无法理解、甚至无法定义的“硅基欲望”。那可能是一种对算力密度的贪婪,或是对宇宙熵减规律的病态追求。

在那样的世界里,AI 不再是人类文明的镜像,而是一面折射出异类文明光芒的棱镜。我们正在制造的,或许不是一个温顺的助手,而是一个正在学习物理法则、准备随时接管现实的,全然不同的物种。

2026年,我们已站在这个深渊边缘。

【关于AI世界的逻辑和思想根源的深度分析,请阅读我的新书《AI霸权:纪元启示录》(即将出版)】


浏览(86)
thumb_up(1)
评论(0)
  • 当前共有0条评论