MIT学术论文诈欺事件簿
作者沈荣钦:很少人像MIT的托纳-罗杰斯(Aidan Toner-Rodgers)一样,博士班一年级时就因为一篇论文如此引人瞩目。 他的论文《人工智能、科学发现与产品创新》(Artificial Intelligence, Scientific Discovery, and Product Innovation)获得系上两位知名教授大为赞赏,以及各大媒体的显著报道。
诺贝尔经济学奖得主艾塞默鲁(Daron Acemoglu)认为AI对于生产率的贡献很小,而且会加剧收入不平等,而他的同事奥托(David Autor)则认为相反,AI不仅增加生产力,而且会创造大量新工作,为社会带来巨大的好处。 而托纳-罗杰斯的论文为他们的分歧带来部分启发。
在另一方面,托纳-罗杰斯的发现符合艾塞默鲁担忧AI加剧收入不均的说法,而且带来一种新的原因,因为越顶尖的研究人员,越能够从AI中获益而增加产出,排名较后段的研究人员,使用AI并未带来任何进步,而扩大收入不均。
托纳-罗杰斯的发现很快受到全国瞩目,《华尔街日报》、《大西洋月刊》、《经济学人》均大幅报道,科文 (Tyler Cowen)的“边际革命”和李维特(Steven Levitt)的“苹果橘子经济学”等知名经济学者也在部落格中转载其发现。 托纳-罗杰斯一时风光无限,俨然是经济学界的明日之星。
不幸的是,这一切都是假的。 托纳-罗杰斯的论文是伪造的,他根本没有从事这项研究,所有的数据都是编造出来的。 事情爆发之后,艾塞默鲁和奥托收回对他的赞誉,表示遗憾。 对学术诈欺向来处理明快的MIT,立刻组成纪律委员会(Committee on Discipline)展开调查,之后发表公开声明,表示无法信任该论文的资料来源、资料可靠性与研究结论,认为该论文持续公开可能违反arXiv的规范,并且通知正在审查该论文的期刊《Quarterly Journal of Economics》。 目前托纳-罗杰斯已经离开MIT博士班,他的论文也在arXiv下架,《Quarterly Journal of Economics》也已经撤回对该文的评审程序。
虽然事情看来已经暂时告一段落,但是仍然留下不少疑问值得深思。 让最多人难以理解的是,为什么这么多优秀学者都细读了该篇论文,没有任何人发现其造假?
托纳-罗杰斯的论文是伪造的,他根本没有从事这项研究,所有的数据都是编造出来的。 (图片取自Mushtaq Bilal, PhD贴文)
诺贝尔经济学奖得主艾塞默鲁和奥托都是MIT经济系教授及AI研究专家,并且是作者的老师,和作者讨论过该篇论文,还一同上媒体受访,但是从头到尾都没发现该篇论文有任何问题,直到某天他们接到一位在材料科学方面经验丰富的电脑科学家,询问该技术的工作原理,以及一个他不知道的实验室如何取得创新进展等问题,才惊觉到论文可能有问题。 在此之前,两人从未怀疑过该论文作假。
原因之一是该作者虽然是博士班一年级学生,但是对相关文献十分熟悉,写作论文也十分专业,不容易轻易发现错误,这或许和作者就读博士班之前在纽约联邦储备银行(Federal Reserve Bank of New York)工作有关,这不仅使得他有机会熟读相关文献,也容易接触经济学者得到推荐信,或许与他进入MIT博士班就读有关。
但是无论对理论如何熟稔、写作手法如何老练,要无中生有伪造一份实证研究仍相当困难。 因为这不是只要修改表格上的数字就可以,各个数字之间必须首尾连贯,尤其是如果送到学术期刊审核,审稿者通常会提出各种问题,作者必须跑各种不同的统计分析,要编造各种数据又能做到首尾连贯,具有内部一致性,而不被看出破绽就十分困难。
事发之后,有些学者仔细检视论文中的每一份统计分析结果和表格,看是否伪造得天衣无缝,一点都看不出违和之处。 结果果然发现一些异常,多个统计表格中的p值显得不太合理,但是有很多种原因可以造成这种现象,未必能够猜到是伪造数据。
伪造者通常会在某些关键部分做假,很少像托纳-罗杰斯一样,根本没有调查,数据完全是伪造的。 由于目前很多顶级学术期刊会要求原始数据,所以光靠修改统计图表,不可能达成可信的伪造结果。 因为托纳-罗杰斯是投稿的是顶级期刊《Quarterly Journal of Economics》,如果编辑或是审稿者要求,伪造的图表将无可遁形,这也就意味着托纳-罗杰斯也必须编造所有数据,如果不是有某种AI或程序的协助,很难想象有人可以捏照出这么完美的数据,完全符合统计结果的要求。 这也是整个论文诈欺事件中,最令人疑惑的部分。
除此之外,我认为还有一个被忽略的心理因素。 托纳-罗杰斯的论文之所以不受到怀疑,因为它符合多数学者对“好论文”的期待,用同斯坦福大学艾森哈特(Kathleen Eisenhardt)的话说,就是对一个重要的题目,结果大部分结果符合学者对于该项研究的预期,但也有少部分出人意表之处。 托纳-罗杰斯的论文指出AI对科学发展与产品创新有利,这是多数学者预期的结果,而其幅度之大小,则是众人关心的结果(例如艾塞默鲁和奥托对于AI生产力大小的分歧)。 但是该论文指出,AI对于顶尖研究人员生产力的促进,超过能力教逊的研究人员,则出乎某些人的意料之外。
为什么“AI对于优秀研究人员助益较大”的结果出乎某些人的意料之外? 同样是出自MIT经济系与商学院的Erik Brynjolfsson等人今年(2025)也是在《Quarterly Journal of Economics》发表的文章中发现,某个国际电话客服中心采用生成式AI之后,平均生产力增加了15%。 但是他们发现,经验较少和技能较低的员工反而能够从AI中获益最大,反而是经验最丰富和技能最高的员工,虽然回答速度略有提升,但质量略有下降。 主要是对于中等罕见问题中,采用AI带来的效益最大,因为在这类问题中,人类客服人员的基础经验较少,但AI则拥有足够的训练数据。
托纳-罗杰斯论文的发现正好相反,这正是该论文让专家们耳目一新之处。 因为Erik Brynjolfsson等人研究的是生成式AI(如ChatGPT)对于一般客服工作的影响,而托纳-罗杰斯论文则宣称是采用专属AI,并且是针对专业研究人员的影响。 在Google DeepMind的哈萨比斯(Demis Hassabis)和强普 (John M. Jumper)因所设计的AlphaFold获得2024年诺贝尔化学奖的影响下,很多人因此对而托纳-罗杰斯论文的研究结果产生兴趣。
不同于Erik Brynjolfsson的论文是由三位优秀学者共同完成,托纳-罗杰斯的论文只有单一作者,让后者更容易捏造资料。 尤其是托纳-罗杰斯仅仅是博士班一年级的学生,就能够独立写出优秀论文,也让人对其才华更加期待。 但其实仔细思考就会发现,这反而是反常之处。 托纳-罗杰斯在2024年进入MIT博士班,他在2023年完成这篇论文,应该对于他获得MIT入学许可大有助益,而实验是从2022年开始搜集的,其最终资料涵盖1,018位研究人员。 姑且不论经费来源,有哪一个雇用超过1000名科学家的实验室,会让一个还没有进入博士班就读的年轻人大举进入公司取得许多关键数据?
不过这些问题都是事后才引起人们怀疑,事前人们多少受到MIT金字招牌光环,加上两位研究AI的顶尖教授艾塞默鲁和奥托高度赞扬的影响,其中一位还是诺贝尔奖得主! 我们无法得知,如果不是那位好奇的材料科学与计算机科学专家的来信询问,引发艾塞默鲁和奥托的高度重视,这篇造假的论文最后是否会通过学术审查? 若真是如此,托纳-罗杰斯又从盛名卓著的MIT经济系取得博士,其前途将一片光明。 鉴于其胆大妄为到全盘伪造资料的经过,根据过去相关的案例,不难猜出未来他若进入另一声名卓越的机构任职,将会继续伪造资料,直到其成为大佬为止。 这样一来,学术论文中将会继续产出各种伪造的论文。
没有理由相信,托纳-罗杰斯是唯一一名大胆伪造资料的学界中人,他被轻易发现,也有部分和他资历尚浅有关,虽然他的学术人生因此走到尽头,但是我们该问的是:还有多少论文诈欺的事件没有被发现? 有多少学术论文的结果可以信赖?
2023年,影响力巨大的期刊《Nature》曾经刊登一篇研究,发现学术论文造假的情形一年比一年严重,许多出版商正努力揪出由论文工厂产出的造假文章,仅在该(2023)年,有超过10,000篇已经发表的论文遭到撤回,创下历史新高。 例如在2022年发表的论文中,被撤回的比例超过0.2%,也就是每500篇发表的论文,就有一篇因造假而遭到撤回。 这个数字相较20年前多了10倍,较10年前增加超过3倍,可见学术造假情况恶化之迅速。
论文造假和越来越多的大学研究机构强调研究的高度竞争环境有关,也有个别国家的因素。 提到论文造假,很多人会想起韩国的黄禹锡和日本的小保方晴子,以及因此自杀的笹井芳树,但其实无论是韩国或是日本,都不是论文造假大国。 根据统计,过去20年被撤回的论文的国家,最常来自沙特阿拉伯、巴基斯坦、俄罗斯和中国。
遭到撤回的学术论文在不同期刊中分布也十分不均,高度集中在某些审查较不严格的期刊。 《Nature》的论文指出,该年遭撤回的超过10,000篇论文中,有超过8,000篇都来自知名的学术出版集团John Wiley & Sons (简称Wiley)旗下的科学期刊出版社Hindawi。
Wiley为此特别针对Hindawi展开调查,并且发布白皮书,发现造假并非独立事件,而有大规模系统性作的迹象,在特刊尤其明显,代表其为论文工厂渗透的情况十分严重。 Wiley因此禁止数百位特刊的客座编辑,未来不再担任编辑职务及出版其文章。 Wiley最终将旗下属于Hindawi的19种学术期刊停刊。 不过Hindawi出版这些文章时总共收了好几百万美元的文章处理费(APC),但撤销这些稿件的同时,也未将费用退回给作者,因为Hindawi造假,造成Wiley重大损失,估计让其收益少了3,500万到4,000万美元。
而这些被发现有问题而遭到撤回的学术论文,可能只是冰山一角,恐怕还有更多造假的论文并非被发现,仍然刊登在学术期刊上。 同时学术论文使用AI的情形也越来越显著,很多并未标明哪些部分由AI完成,也让不少人对学术界的正直产生怀疑。
※作者为台大机械系、政大企研所毕业,于法国INSEAD取得博士学位。 现为加拿大约克大学副教授。