欧阳峰

注册日期:2009-08-29
访问总量:2032017次

menu网络日志正文menu

物理奖发给AI工作:是蹭热度还是实至名归?2024年诺贝尔物理奖介绍


发表时间:+-

近几年是人工智能(AI)技术全面爆发的年代。以语言大模型为代表的新一代AI技术,不仅展现出令人惊叹的能力,也迅速进入了多个行业的实际应用。AI由此成为社会关注的焦点和家喻户晓的热词。

在这一背景下,2024年诺贝尔物理奖与化学奖双双授予了与AI相关的研究成果。其中物理奖颁给了约翰·霍普菲尔德(John Hopfield)与杰弗里·辛顿(Geoffrey Hinton),表彰他们在1980年代初对神经网络的开创性贡献。此举在科学界和公众中都引发了广泛讨论。一部分观点认为,神经网络属于计算机科学范畴,其成果理应由图灵奖等信息类奖项表彰;相反,也有人认为,神经网络的发展受益于物理学方法,此次颁奖正是物理学对当代科技广泛影响力的体现。那么神经网络与物理学到底有什么深层联系呢?

虽然早期的研究工作,包括得奖者的工作,其动力之一都是更好了解人脑的运作,但如今说到“神经网络”,自然缺省都是指“人造神经网络”,即用芯片或计算机实现的,模仿神经结构而用来解决AI问题的系统,与神经生物学没啥关系了。神经网络如今已是人工智能的中流砥柱,特别是在大语言模型(如ChatGPTDeepSeek)中扮演了核心角色。对于非专业人士而言,神经网络、深度学习和AI几乎是同义词。神经网络的基本原理已经有很多介绍了,本文只着重探讨神经网络早期发展时期的物理基因

人们很早就认识到生物中神经网络的神奇,而且尝试几种相关的数学模型。计算机问世后,这方面工作就便利了很多。20世纪80年代初,物理学家霍普菲尔德深受生物学中网络现象的吸引,因而转向生物和神经学。 1982年,他提出了结构简洁却具有联想记忆功能的霍普菲尔德网络。在该模型中,神经元之间通过连接形成网络。在学习阶段,连接的权重根据训练数据调整,形成记忆;在回忆阶段,输入通过连接触发神经元状态更新,从而联想出与之相符的记忆图像。在前人工作基础上,霍普菲尔德作出了一系列重要的推进。

首先,他考察的网络里,神经元之间的连接是双向对称的。这种允许信号“反馈”的结构称为递归神经网络(Recursive Neural Network)。相比于当时的主流——信号单向传播的“前馈神经网络”(feedforward neural network),递归网络能产生“记忆”的功能。但它的数学分析非常困难。霍普菲尔德意识到,在一个巧妙的“能量”定义下,这种网络的动态演化过程与物理学中描写自旋玻璃的“伊辛模型”相似:系统演化到一个具有能量极小值的状态,从而“调出”记忆中的内容。这一模型首次将神经网络的功能机制与物理理论相映照,为分析和理解这类“神经网络提供了一个数学框架,而且可以借用物理中已有的研究成果,大大加速有关研究。

霍普菲尔德还采取了“涌现”(emergence)的视角(这与他对网络现象的长期兴趣有关)。他认为神经网络的基本特性来源于神经元的巨大数量和它们之间的紧密连接,而与神经元和连接本身的细节关系不大。在这篇论文中,虽然他的数学分析只适用于很局限的情况,但他用仿真计算演示了:即使改变神经元和连接的很多性质(包括将连接改成非对称),神经网络的“记忆”功能仍然存在。这些观察也对未来的研究提供了启示。

因为存在反馈,“霍普菲尔德网络”具有稳定态,所以各个神经元之间的状态转换不需要时间同步。这个特性不仅与实际的生物神经网络情况更接近,而且也进一步揭示了这个模型相对于细节变动的稳健性。

虽然霍普菲尔德并非首次发明神经网络,但他的工作让这个技术广为人知。不久,贝尔实验室就演示了一个可以识别手写阿拉伯数字的小规模网络,尽管功能有限,却显现出神经网络的巨大潜力。辛顿的工作也是受到霍普菲尔德的启发和激励才得以发生的。

辛顿随后在霍普菲尔德网络的基础上进行了关键拓展。他引入了隐藏层,显著增强了神经网络的表达能力,并采用类似玻尔兹曼分布的随机机制,防止系统陷入局部极小值。这种设计被称为玻尔兹曼机,在当时展现了神经网络通向更复杂功能的可能性,也是后续“深度学习系统”的雏形。

霍普菲尔德和辛顿的早期研究深受物理学影响。因此,尽管神经网络在今天属于工程领域,但其理论起源本身与物理学有直接的渊源。将物理奖授予两位在神经网络领域做出基础性贡献的研究者,可说是实至名归。

然而,自1980年代以来,神经网络曾长期处于边缘地位。彼时AI整体前景并不被看好,神经网络也并非AI主流技术路线。霍普菲尔德本人未持续深耕神经网络方向,其后续研究主要转向神经生物学,并因相关成就获得狄拉克奖章等荣誉。

在霍普菲尔德的成名博士学生中,大多数并未选择继续研究神经网络,唯一的例外是Terry Sejnowski,后来成为辛顿的重要合作者。

神经网络的真正复兴始于2010年代。在图像识别、自然语言处理和棋类游戏等领域,深度学习取得了突破性进展,并最终成为推动AI发展的主力。但此时的神经网络体系已经与霍普菲尔德和辛顿当年提出的理论框架大相径庭。包括自旋系统、玻尔兹曼机在内的物理概念在现代深度学习工程中也鲜有提及。

因此,准确而言,霍普菲尔德与辛顿的贡献并非是提供现代深度学习的直接基础,而是他们最初展现了神经网络作为研究方向的潜力,并激励少数研究者在低潮时期坚持探索,为AI的今日成就提供了思想与方法上的启发。

然而,即使在今日神经网络蓬勃发展的背景下,物理学仍可能为其未来演进提供关键助力。

尽管神经网络得到广泛应用,我们对其的本质理解依然有限。当前的技术进展,在很大程度上依赖于算力、数据的粗暴堆积以及工程上的大量试错。对神经网络系统的基本问题——如其泛化能力、学习机制以及与人类智能的融合方式——依然缺乏系统性理论支撑。

为此,学界正尝试引入更严谨的数学工具,例如“微分几何”可用于刻画网络的学习路径,“信息几何”描述模型与数据的契合程度,“推广上限”则评估模型在训练数据之外的表现等。然而,神经网络作为高度分布式系统,其功能非常依赖整体协同,这使得传统还原论风格,重视局域分析的数学工具往往难以发挥作用。

这一挑战与物理学在研究强关联体系时所面临的问题颇为相似,强关联体系同样无法通过还原,分析局部结构来理解整体行为。霍普菲尔德当年用来类比的自旋玻璃就属于这类体系。经过此后近半个世纪的积累,物理学在处理这类复杂系统方面的工具与方法有了很大提升,例如2021年得奖的复杂系统研究和2016年得奖的拓扑相变。这些新进展也许能成为神经网络研究的“他山之石”。

此外,物理学一贯强调理论与实验的结合,这在研究人工神经网络时亦有借鉴价值。还是用凝聚态物理为例:虽然我们能完全预测每个电子和每个原子核的运动,但不可能由此严格推出整个固体的性质。相反,我们构造基于实验观察和基本量子概念的简化理论,如能带,声子,库帕对等等,来帮助我们定性和定量地研究宏观性质。同样,虽然我们完全了解神经网络中神经元连接的微观机制,但是由于网络的复杂性,其整体行为的理解仍需依赖实验观察与模型抽象的协同推进。

其实,霍普菲尔德1982年的划时代论文,就是用物理方法研究神经网络的范例。文中既有严格的数学推导,也包括了从计算机仿真中观察到的现象,还有高度简化的数量级估计并与仿真结果的比较。这些都是物理研究中常用的手段。当然,今天的神经网络远比当年复杂,我们要研究的问题也远比当年深入。所以霍普菲尔德的研究方法并不能被复制。怎样用好物理的“工具箱”,仍然是个非常值得探索的问题。

不仅如此,物理学还对神经网络的发展提出了新的要求。例如物理信息神经网络Physics-informed Neural Networks)正成为一个新兴方向,它要求神经网络在拟合数据的同时遵守已知的物理规律,以用于建模物理系统和求解偏微分方程等复杂问题。

总的来看,物理学不仅是早期神经网络诞生的催化剂,如今也可能继续扮演它的助推火箭

值得一提的是,两位获奖者中,辛顿因其在AI界的长期活跃早已为人所熟知;而霍普菲尔德相对低调。但事实上,他在物理学界本就享有极高声誉。他得到博士学位不久,就因在光电子学的研究获得美国物理学会巴克利奖(Oliver E. Buckley Prize),并在三十一岁就获得普林斯顿大学的教职。早在1982年提出神经网络模型前,他已当选为美国国家科学院和美国文理科学院院士,之后又因其神经网络与另外两个神经生物学的研究获得狄拉克奖章(Dirac Medal of the ICTP)。巴克利奖和狄拉克奖都是物理界公认的最高档次奖项,很多得奖者后来取得诺贝尔奖。霍普菲尔德的成就表明,霍普菲尔德网络并非偶得灵感之作,而是长期物理学思维与训练的自然结果。

神经网络本是一个非自然的数学构造,却在当时引起一些物理学家的兴趣,这并非孤例。我们今天不可或缺的万维网,也是诞生在物理实验室。这些例子说明,物理学不仅是一门自然科学,更是一种极具创造力的思维方式和研究方法。正如霍普菲尔德在访谈与诺贝尔奖演讲中所强调的,物理的意义不止于解释自然现象,更在于提供一种系统理解与建模复杂系统的方法论。物理学对于人类进步的贡献,除了原子能,激光,半导体这种瓜熟蒂落的成果,也有像万维网,神经网络这种无心插柳的收获。

因此,2024年诺贝尔物理奖的授予,并非对AI热潮的简单迎合,而是对物理学思维方法长期贡献的致敬。“神经网络”的旅程也再次提醒我们,基础科学的力量,往往以最难以预见的方式,深刻塑造着技术与知识的未来。

 


浏览(672)
thumb_up(2)
评论(0)
  • 当前共有0条评论