语言模型与世界模型

发表时间：2026-06-14 19:11

在当下的人工智能技术场域中，以ChatGPT为代表的大语言模型（LLM）出尽了风头。它们吟诗作赋、编写代码、分析逻辑，似乎无所不能。然而，随着AI技术发展面临某种潜在的瓶颈，有人开始将目光投向一条全新的赛道：世界模型（World Model）。

简单来说，所谓世界模型（World Model）是与大语言模型（LLM）相对应的一种新思路，是一帮技术玩家试图另辟蹊径搞所谓一般直觉（General Intuition），有点向意识本源挺进的味道。

一．计算不可计算之事

要理解世界模型的价值，首先要明白大语言模型的不足。

大语言模型需要把所有环境因素都转化为广义的语言文本，通过语言文本学习实现和模拟现实世界并指导行为决策。简单来说，LLM 试图用文字来压缩和重构整个宇宙。无论是物理规律（比如苹果掉在地上）、空间关系，还是人类的复杂情感，在 LLM 眼里，最终都被降维成了由 token 组成的一维线性序列。

这种万物皆为文本的粗暴手段虽然取得了惊人的成功，但代价也是极其惨痛的——这个会带来很繁重的计算任务。当我们需要 AI 去理解一个哪怕是人类三岁小孩都能瞬间秒懂的物理场景（比如水杯碰倒了水会洒出来）时，LLM 需要在背后调用千亿级的参数，进行海量的概率矩阵相乘才能得出结论。

这就引出了一个非常具有吸引力的概念和刚性需求：Computing the Uncomputable（计算不可计算之事）。

当然这里需要做出澄清的是，所谓 Computing the Uncomputable，并非图灵机意义上的可计算性（Computability）极限的概念，而是指基于目前计算速度和存储容量的极限所设定的不可完成的计算任务。

换句话说，用语言去模拟整个三维物理世界的运转，在理论上或许是图灵可计算的，但在现实工程中，它所需要的算力、能耗和存储空间，正在逼近人类硅基硬件的物理极限。我们不能指望靠堆叠无限的显卡，去穷尽这个世界的每一个微观细节。

二．世界模型与一般直觉

既然“用语言穷尽世界”这条路并非捷径，那是否有更好的办法呢？答案就在人类自己的大脑里。

例如人类在接住一个飞来的棒球时，大脑绝对没有在后台列出微积分方程去计算风速、抛物线和重力加速度，而是直接依靠直觉做出反应。

这正是世界模型的核心理念，其目的就是要模拟大脑建立客观世界的虚拟现实，及其相应的认知和互动模式，从而做到对环境快速反应，减少繁冗计算量。

与 LLM 的词汇接龙方式不同，世界模型更像是一个内置在AI大脑里的3D游戏引擎。它不需要把看到的东西翻译成语言，而是直接在内部构建一个包含物理法则、时间空间、因果关系的世界表征。

当一个盘子掉向地面时，世界模型通过一般直觉（General Intuition）直接预测它会碎，而不是去计算盘子和地面的分子碰撞概率。

这种直觉式的模拟，跳过了繁琐的文本符号转换，直接提取事物发展的核心特征（Features），从而以极低的计算功耗实现了对环境的快速反应。

三．面向意识本源

从进化生物学的角度来看，语言的出现是非常晚近的事。在人类学会使用语言之前的数千万年里，动物们早就在依靠各自的世界模型在残酷的大自然中生存了。猫在跳跃时对距离的把握，老鼠对天敌阴影的躲避，都是一般直觉的体现。

因此，当我们将建立世界模型视为向意识本源挺进时，这不仅是一种充满想象的语言表达，更是为极为深刻关于宇宙底层逻辑的洞察。

大语言模型（LLM）模拟的是人类理性、逻辑和文明的表层产物（语言）；而世界模型（World Model）试图模拟的，是潜藏在语言之下、生命在与物理世界互动中千万年演化出来的底层直觉。它是在探寻那些不可言传的（Unspeakable）、本能的、关于“世界如何运转”的根本认知。

从这一角度来说，走向意识本源显然应该是人工智能下一步非常值得探索的方向，或许未来的AGI（通用人工智能），正是诞生于语言逻辑与世界直觉的完美交融之中。如果真的出现这么一天，对于已经见证了当前人工智能发展奇迹的人来说，丝毫也不会觉得意外。