引火百度的余凯
作为中国深度学习范式的破冰,引火归乡者,第一个将系统带回中国、落地大厂并实现工业化转折的代表,余凯带回的先进认知体系,使中国AI得以提前洞悉时代趋势,赢得宝贵的先发优势,避免行业爆发期(如2015–2020窗口期)的推迟。
如果说辛顿点燃了理论火种,那余凯就是将其焊入中国现实、点燃产业引擎的实干家。
早期成长并不像那些一出场就光芒四射的少年天才故事,而是一段漫长安静,在边缘反复试探坐标的旅程。山西阳泉的冬天总是灰蒙蒙的,煤尘和寒风混在一起,裹挟着小城的节奏。
出生、成长在这,祖籍江西。和李彦宏是老乡,但命运轨迹从开始就不同。1990年代初,最顶尖的学生都挤破头往清北冲,或直接出国,1994年的余凯却选择了昔日古都,就读南京大学电子科学与工程学系。本科四年,他坐在老校区有些陈旧的教学楼里,听着电路、信号处理的课,脑子里开始琢磨更抽象的东西:机器,怎么才能看懂世界?
计算机视觉处在蛮荒时代,模式识别大多靠手工提取,神经网络被主流学界视为死胡同。初生牛犊,却像着了魔,从本科开始就痴迷。研究生阶段,已经开始用神经网络做语音处理实验。1999年,第一次参加全国性学术会议,他投了篇关于神经网络的论文,直接拿了最佳论文奖。随后,默默把证书收进抽屉,继续埋头推公式。他话不多,性格内敛,书生气十足,对每条推导都有近乎强迫症的严谨。
2002年,前往德国。在慕尼黑大学接受严格的数据挖掘与机器学习训练,实验室氛围相对自由。但当时的AI学术圈残酷,神经网络正处于第二次寒冬,主流都在追支持向量机和统计学习。
他没有急功近利,安静的坐在小隔间,一遍遍推导那些层层叠叠的神经元连接。慕尼黑的冬天漫长而阴冷,他常常独自在图书馆待到关门,屏幕上的公式像雪花堆积。过的孤独,却也自得其乐。正是这种沉得下来,容忍得住被主流忽略的状态,让他避开了范式干扰,悄然筑起一套独立的知识体系。
2004年博士毕业后,先去了西门子中央研究院做高级研究员。进入商业开发的实战第一线,所有模型和代码都必须在海量、嘈杂的真实用户数据上运行。检验成果的标准是上线后残酷的业务指标,研究的唯一目标是以最快速度和最高效率创造商业价值。
两年后,转战NEC美国研究院,在硅谷的媒体实验室担任主任。当时深度学习被学界打入冷宫,但NEC在偷偷养着一批人,闷声干大事。早年汇聚了杨立昆、弗拉基米尔·瓦普尼克这样的传奇人物。瓦普尼克是统计学习理论的奠基者,支持向量机 (SVM) 的共同发明人,计算机学习理论先驱。杨立昆是卷积神经网络 (CNN) 之父,深度学习三巨头之一,2018年图灵奖得主。
辛顿、杨立昆、瓦普尼克这些人,属于战场上的元帅、统帅、战略家,发明武器(CNN、SVM、反向传播理论)、绘制地图(深度学习范式、统计学习理论)、点燃第一把火(AlexNet的胜利)。他们决定“打什么仗”,“用什么打法”,他们的论文就是军令,算法就是兵器原型。他们是“定调者”,“开山祖师”,地位高远,像统帅一样俯瞰全局。
余凯是身披战袍的将军,接到军令后排兵布阵,带着部队冲锋陷阵的前线主将。在这里首次主导大规模实战,他运筹帷幄,将成千上万张图片视为麾下士兵与战马,俯身于战线细节,逐帧紧盯算法在不同光照、角度下的微小偏差,以精确到像素的调校,赢得工业战役。
生理上枯燥,精神上充实。日复一日地标注、调试、迭代,眼睛酸涩,手指在键盘上敲出节奏。但他看到了希望和关键节点所需:深度学习的方向没错,但受限于算力,无法发挥潜力。只要算力再翻几个量级,就肯定能爆发。
机会不负有心人,终于来了。2010年,李飞飞的首届 ImageNet 大规模视觉识别挑战赛启动。那一年,大多数人甚至没有意识到,一场将彻底改写计算机视觉乃至人工智能命运的试验,已经被摆上台面。
故事还得从几年前说起。
2006年前后,计算机视觉正处在一种微妙的停滞期。算法越来越精巧,论文越来越复杂,但现实中技术进步却越来越慢。研究者们纸上谈兵,反复在几个熟悉的数据集上打转:PASCAL VOC、Caltech-101、Caltech-256。围绕着那么几千张、几万张图像,和区区几十到几百个类别,精耕细作。
精致的模型在这些“小世界”里被打磨得近乎完美,却始终无法跨出实验室的门槛。
那时初回普林斯顿的李飞飞,年轻气盛,英勇无畏,川妹子的泼辣劲十足。
她隐约意识到,问题不在算法,而在世界,太小太简单太纯粹。实际上,意识到问题所在的人应该不少,却没有一个人敢像她那样,挑战不可能。
如果机器真的要学会“看”,它看到的就不该是研究者精心挑选的精致小样本,而是一个近似真实世界的混乱集合。于是,她有了一个当时,听着就鲁莽而疯狂的想法:建个视觉版的 WordNet!一个庞大的图片帝国。那里存在的,不是几千张图而是数百万张,不是几十类而是数千。迎合的不是学术上的“够用”,而是可以满足工程意义上的“过量”,足够来个饱和打击。
2007年,她离开伊利诺伊大学香槟分校(UIUC),回到普林斯顿,借助于李凯的帮助,ImageNet项目正式启动。实际上的难度,比她想象的还要大很多。没有充足的经费,却异想天开,要用一支小团队追寻一个超级笨重的目标:从互联网抓取图像,把人类世界的视觉对象,一层层嵌进机器可读的结构里。
到2009年,数据库上线时,规模已经大到让研究者们望而却步:一千多万张图像,覆盖两万多个类别,按 WordNet 的语义层级展开。它不只是个“漂亮的数据集”,而是块未经驯化的原始大陆,新的星球。
1985年,由心理学家乔治·米勒领导的普林斯顿团队开始构建 WordNet,试图将人类语言抽象为机器可读的逻辑。在普林斯顿深厚的符号逻辑传统下,最小单位被定义为同义词集合(Synset),它超越了单词本身的字面排布,将语义作为组织核心。
这为后来的计算机视觉革命奠定了两个关键的技术基石。
首先,它确立了层次化的分类学体系(Taxonomy)。WordNet 内部最核心的逻辑是其严密的上下位关系(Hyponymy/Hypernymy)。它明确规定了概念间的隶属逻辑。例如,“哈士奇”是“犬科”的下位词,“犬科”又是“哺乳动物”的下位词。普林斯顿的学者们耗费数十年,手动梳理出数万个这类逻辑链条。有了它,李飞飞后来就不需要从零开始,构建覆盖万物的分类逻辑,而是直接继承已成型的语义树。ImageNet 的 12 个层级和 2 万多个类别,在本质上就是将海量图像挂载到了 WordNet 的逻辑节点上。
其次,它提供了从“符号”到“感知”的跨越支点。尽管 WordNet 在语义逻辑上近乎完美,但它始终停留在符号层面。它能告诉机器“猫有四条腿”,却无法给机器提供“猫”的像素表征。可能正是因为李飞飞身处发源地,她比任何人都更早看清了这一局限:纯粹的符号逻辑(Symbolic Logic)无法产生真正的智能,必须用海量的感官数据去填充这些逻辑框架。
真正的转折发生在2010年。短暂的铁牛沉大海之后,李飞飞的团队意识到,单靠数据本身并不能推动整个领域前进。不同团队各用各法、各选各的数据,各说各语,自说自话,彼此间无法比较,进步就慢,这是巨大的时间和资源浪费。她觉得,人们还是没有看出,这么巨大一个图片数据集的潜在价值。
从这里,你能看出李飞飞的真正厉害:她不仅敢做普通人觉得不可能的事,建了个世外桃源。而且,她还要逼着人们进驻,在里面各显神通,将它打造成真正伊甸园。这是不是受当年中国到处热火朝天的地产开发启发,只有她自己知道,或许连自己都不知道,只是冥冥之中接受了指引。
结果,她不仅是一个数据的建设者,更是一个行业生态的设计者。
就此她想到了竞标,想到了擂台赛。她看着那些在旧数据集里斤斤计较的学者,就像看着在狭窄死胡同里死磕残局的棋手。她不打算入局,要在广袤原野,再造一个万马奔腾的战场。
或许在某个瞬间,她脑海中闪过那场中日围棋擂台赛的往事:一纸赛约,举世瞩目,成就了聂卫平等众多棋圣棋王。她领悟到,要改变一个时代的认知,仅仅靠逻辑是不够的,还需要一场足以载入史册的“胜负”对决。她要做的,就是为全世界的算法英雄,组织一场决定命运的擂台赛。
在2010年第一届挑战赛举办时,李飞飞人微言轻,却展现出了川妹子特有的那股子灵气与韧劲。或许是骨子里带着点诸葛故里的谋略基因,在资源几乎为零的绝境下,她竟如老乡孔明布局、又似刘皇叔起家那般,玩了一手极其漂亮的“借壳上市”。
当时视觉领域已有成名的小型竞赛PASCAL VOC。面对这座已经稳固的“城池”,李飞飞无力强攻,也没有资本另起炉灶,她选择了“借鸡下蛋”的策略。她指挥着稚嫩的ImageNet委身其中,以一个附属子项目的名义低调潜入。就像当年刘备在落座荆州前,在那座弹丸小城“新野”暂时栖身。虽是寄人篱下,虽是厚着脸皮“沾香边”,却在默默观察着天下大势,积攒着改天换地的本钱。
李飞飞在这点上极其令人佩服:她不怕位卑,不怕被冷落,更不嫌弃这“新野小城”的寒酸。只要有一线机会,她就要试一下,而且是全力以赴。
当时的她穷得叮当响,拿不出钱,也找不到愿意掏钱的赞助商。早期的奖金微薄到近乎凄凉,很大一部分是由PASCAL VOC背后的组织机构,主要是那帮严谨却死板的欧盟学术网络分摊的。这笔钱与其说是“奖金”,不如说是一种象征性的“差旅补助”,数额往往只有几百到一千美元,有时甚至只是送一张当年顶级学术会议的入场券。
正如刘备在新野等到了诸葛亮,李飞飞也在这个学术界的“新野”里,等到了那个足以火烧博望坡的神迹。2012年,当辛顿带着那两块冒烟的游戏显卡杀入赛场时,李飞飞终于告别了“借座新野”的窘迫,亲手开启了属于深度学习的“三国鼎立”时代。
2010年的硅谷,黄仁勋正陷入一种宏大的孤独。英伟达虽然靠显卡赚得盆满钵满,但在老黄心里,始终带着种“玩物丧志”的原罪。那是给青少年消磨时光的玩具,不是改变世界的利器。
他疯狂地推行“NVIDIA Academic Programs”,像个兜售灵药的江湖郎中,敲开一间间顶级实验室的大门,试图说服那些穿白大褂的教授:“看在上帝的分上,别再盯着CPU了,我这儿有能算流体力学、能模拟宇宙爆炸的神器。”
但迎接他的,是礼貌而傲慢的拒绝。
那一刻的老黄,像极了七八十年代提着皮箱、满世界推销产品的台湾青年。在那份执着里,藏着不怕苦、不怕累、更不怕被人瞧不起的忍耐与卧薪尝胆。而那些浸淫在手工特征提取里的教授们,看着这个推销员,眼神里悬浮的依然是那些复杂的数学算式,仿佛在说:科学是优雅的艺术,不是你手里那块发烫的塑料板。
当时的计算机视觉学界,正沉浸在“手工艺术”的巅峰。大牛们聚在一起,比拼的是谁的数学公式更优雅,谁设计的特征(SIFT或HOG)更像达·芬奇的线条。在他们眼里,搞AI是视觉的诗学,是逻辑的极致。
如果有人提议用“游戏显卡”来跑实验,导师会扶一扶眼镜,冷冷地抛出一句:“你是想在实验室打《魔兽世界》,还是想自降身段去当个修电脑的机房管理员?”
甚至连正在泥潭里苦苦挣扎的李飞飞,起初也没把英伟达当成救世主。老黄送来的那几块显卡和硬件代金券,更像是某种“学术公益”。这些显卡被随手扔在实验室的角落,和过期的披萨盒挤在一起。它们在等待一个识货的人,但那个识货的人,甚至还没付得起去参加学术会议的机票钱。
那时候的辛顿团队,都没有机会获得来自英伟达的免费GPU!
【节选自 《AI霸权:纪元启示录》(汪翔,即将出版) 第七章第一节】有兴趣在大陆和港台出版这本四十万字,关于AI科技发展史,思想史的,请联系我。】
