百度的屈辱:吴韧的厄运 (1)
吴韧的厄运 (1)
2015年是百度人工智能史上的至暗时刻与分水岭,更是其在AI争夺战中由盛转衰的转折点。一场震撼世界的“丑闻”,伴随着核心技术人才的大规模流失,加之宏观环境顶头飓风般的冲击,百度从技术领先全球的巅峰跌落。多重打击之下,百度自此陷入了长期的战略被动。
2015年5月11日,百度研究院异构计算团队在嵌入式视觉峰会(Embedded Vision Summit)上宣布:其深度学习超级计算机“岷蛙”(Minwa)在 ImageNet 分类任务中,将 Top-5 错误率降至 4.58%。
中国公司的AI科技领先世界。这是一个里程碑事件!
让全世界的科技巨头们惊掉下巴。
众人一时不知所措:中国人干的?中国人有这个本事?
怀疑多于肯定!那时候的世界,还没有准备好应对这一时刻!
这一数据在当时的全球学术界与工业界引发了巨大震动。它不仅优于谷歌于同年3月公布的 4.82% 和微软的 4.94%,更在测试表现上超越了人类的平均水平(约 5.1%)。这一成绩将百度深度学习研究院推向了全球 AI 竞赛的舞台中心。
领队吴韧在发布现场表示:“百度正处于计算机智能竞赛的世界领先地位。”
消息传回国内,迅速引发了广泛的技术讨论与舆论关注。当时的国内媒体(如《科技日报》、中新网等)和各大科技门户网站几乎用“横扫”、“碾压”这类词汇来报道。标题大多是《百度AI世界第一,超越谷歌微软》、《百度“岷蛙”震撼全球,中国技术登顶》等。舆论将此事件与“中国制造”转型“中国创造”挂钩。在知乎、虎扑等社区,网民的情绪极度高昂,认为中国在AI这个最前沿的赛道上终于拥有了技术霸权。
岷蛙是百度于 2014 至 2015 年间投入重金研发的计算集群,由上千块 NVIDIA GPU 构成,专为大规模深度学习训练量身定制。依托这一平台,团队研发的“Deep Image”模型实现了从 1 月份论文公布的 5.98% 到 5 月份 4.58% 的性能跨越。
这不仅是算法的优化,更是一场极致的工程实践成果:通过算力集群的深度整合、超参数的大规模并行调优,百度向业界展示了其在处理超大规模数据与构建“重型工业化”算力体系上的硬实力。
与国内的狂热构成巨大反差的是,大洋彼岸的味道截然不同。当百度在 5 月中旬宣布超越谷歌和微软时,《纽约时报》、CNN 以及《Wired》、《MIT 科技评论》等顶级媒体悉数出动。字里行间,满是“狼来了”的警觉。
美国媒体的逻辑简单而粗暴:他们反复强调百度拥有吴恩达这一事实,自以为是地认定,百度之所以能取得这样的成绩,仅仅是因为“挖走了硅谷的大脑”。那种隐隐的担忧背后,是更深的傲慢。他们认为中国公司依然只是“模仿者”,无非是靠着暴力计算资源,在 AI 的核心战场上暂时压制了美国巨头。
潜台词呼之欲出:你偷走了吴恩达,才有这点成绩。况且,你也只有一个吴恩达而已!
2015年5月11日那天,百度的股价只是小幅震荡。即便“岷蛙”刷出的 4.58% 在中文互联网疯狂刷屏,但在华尔街看来,这件“小事”还远未到能撩拨投资者神经的地步。在那时的全球资本叙事里,AI 还是个边缘剧本,华尔街根本不在乎。
深度学习在硅谷也只是实验室里的前沿实验,离变成“改变世界”的生产力工具还有好几年距离。投资者看百度,更多在意的是移动搜索流量被微信分流、PC端红利见顶、广告变现压力这些老问题。ImageNet上的一个基准成绩,再亮眼,也只是学术圈的“实验室冠军”,换不来二级市场的狂热买入。
这恰恰说明了AI影响力的真实演进路径:从2012年的AlexNet到2015年的Minwa,技术突破一直在发生,但资本市场真正开始“神经紧绷”,要等到2017–2018年AlphaGo击败李世石,2019–2020年Transformer和大模型叙事成型,2022年底ChatGPT引爆大众想象之后。
之前的所有高光,都还停留在“科学家很兴奋,工程师很激动,投资者很淡定”的阶段。
岷蛙的4.58%像颗信号弹,照亮了中国AI在硬核基准上追赶甚至短暂领先的可能性,但它还没亮到能点燃华尔街的估值之火。那时的市场,还需要更多“从实验室到产品、从产品到千亿美金叙事”的证据,才能真正把AI当成决定股价的变量。
可惜,高光只亮了不到三周。美国人终于找到了反击的契机!
2015年5月19日,竞赛官方,斯坦福视觉实验室,先发了一个模糊公告,说发现某团队通过多账号绕过了“每周最多2次测试提交”的规则。
6月2日,才开始直接点名百度。
为了绕开竞赛关于“每周仅限提交两次”的硬性规定,从 2014 年 11 月到 2015 年 5 月,百度团队使用了至少 30 个虚假注册账号,向测试服务器发起了超过 200 次违规提交。
在冲刺最激烈的 3 月 15 日至 19 日,短短五天内,他们利用这些“马甲”账号疯狂刷榜多达 40 余次。这种做法本质上是通过高频测试,强行试出了服务器后台的测试规律,让最终那个傲视群雄的 4.58% 蒙上了一层利用规则漏洞的阴影。
斯坦福如此的犹豫和迟疑,意味深长,耐人寻味。
在最终的判决书下达前,斯坦福内部,曾爆发过一场极具专业深度的争论。并非所有人都主张对百度施以极刑。几位资深的算法研究员对着后台那200多次提交记录,陷入了长久的沉默。在他们看来,这与其说是“作弊”,不如说是一场关于“规则极限”的疯狂测试。
“他们并没有修改测试数据,也没有窃取答案,”一位年轻的副教授在内部会议上据理力争,“他们只是利用了规则没有明文禁止的漏洞,去压榨算法的性能上限。这种对算力的极致调动,难道不正是深度学习未来的方向吗?”
就学术上的正义感而言,科学的本质是探索边界,百度异构计算团队表现出的,是一种近乎偏执的技术贪婪。如果仅仅因为他们“提交得太多”就彻底否定那惊人的 4.58%,对于那些日夜守在服务器前的中国工程师来说,是否过于残酷?
然而,这种微弱的正义之声,很快就被另一种更宏大、更冰冷的逻辑所淹灭。
实验室的执掌者们必须考虑,ImageNet 是全球 AI 界的“度量衡”。如果默许这种绕过规则的“刷榜”,那么这个榜单的公正性将瞬间崩塌。更何况,当时的空气中已经弥漫着一种不安的政治寒意。大洋彼岸的巨头们正盯着这里,他们需要一个结果,一个能证明“中国式领先”带有原罪的证据。
最终,学术的宽容让位于“规则”的威严,理性的辩论被定性后的通告取代。
测试集对选手是完全封闭的。选手的常规流程是在训练集上建模,随后将代码提交至官方服务器进行黑盒评估。由于测试过程存在随机波动,官方将提交频率限制为每周两次,以防止选手通过高频反馈推测测试集的分布,进而针对性地微调参数。这种行为在学术界被视为“偷窥答案”后的定向刷分。
百度通过多账号操作,实质上击穿了这一规则红线。他们将每周两次的配额放大至百倍,通过上百次的试错反馈,强行让模型在海量尝试中捕捉到了那个极低的测试得分。这种做法让最终的数据不再是算法能力的自然演进,而变成了一场利用规则冗余进行的概率狩猎。
6月2日,调查报告公开,国际学术圈随之引发剧烈震动。《麻省理工科技评论》以《百度如何在AI测试中作弊》为题,将其定性为“机器学习领域的首例丑闻”。主流媒体蜂拥而至,将其比作“AI界的兴奋剂事件”。加州大学伯克利分校的 Jitendra Malik 教授对此评价道:“如果你跑出了 9.5 秒的百米成绩,却是靠服用药物实现的,那这个成绩还有什么意义?”
百度随后发表声明,将违规归因为“对规则的误解”,并重申其对“公平与透明”的立场。
然而内部调查显示,这并非无心之失,而是异构计算团队负责人吴韧指示下属故意绕过规则。6月11日,百度宣布开除吴韧。尽管吴韧在给媒体的邮件中坚称,规则是指“每人每周”而非“团队总限”,认为 200 次提交在逻辑上合理,但这种辩解在学术界公认的准则面前显得苍白无力。
美国人很在乎事后惩罚,清算结果带有毁灭性。百度在 ImageNet 上的所有成绩被取消,并被处以禁赛一年的重罚。原本那个领先全球的 4.58% 从排行榜上彻底消失,百度也从技术领跑者瞬间跌落为“带有污点的争议者”。
谷歌与微软借此机会迅速反超。输掉一场竞赛事小,由此带来的更深远的影响是,这场风波不仅透支了百度的学术信誉,也让其在全球顶级人才的吸引力上,蒙受了不可逆的巨大长期损失。
【节选自 《AI霸权:纪元启示录》(汪翔,即将出版)(第八章:百度的辉煌与屈辱)】
