一篇科学论文竟有57000名“作者”

中国新闻周刊 2019-01-12 13:37+-

如果把一个展示星系图像的电脑放在酒吧中央,会有人感兴趣吗?毕竟,这看上去是一份颇有难度的专业性工作,而且十分耗时。

苏黎世瑞士联邦理工学院天文学教授凯文·肖文斯基12年前还是学生的时候,查看天文图像还需人工完成。当时,计算机可以根据颜色轻松过滤出哪些是星系,但算法却无法根据形状来识别不同类型的星系图像,教计算机完成复杂图像的识别任务在当时还很难,类似的人脸识别技术耗费了科学家十多年才完成。为了证实自己的理论,凯文只能用肉眼一张一张地看星系图像。

凯文每天工作12个小时,一周才看完5万个星系。当时最大的天文数据库来自美国新墨西哥州的斯隆数字化巡天项目,200多万个天文物体中,有关星系的就有近百万。大量的数据又无法通过人工智能来处理,去哪儿找那么多人来做数据分析呢?

超过57000名“作者”共同完成的论文

那时候,刚好兴起了“公众科学”的概念。2006年夏天,美国宇航局(NASA)启动了“Stardust @ home”项目,招募了约两万名在线志愿者来识别彗星样本中的星际尘埃轨迹。

一篇科学论文竟有57000名“作者”

为什么不让人们看看星系呢?凯文和之后成为牛津大学物理系天体物理学教授的克里斯·林托特决定试试。两人在几天之内成立了一个网站,主页显示着数据建立起的星系图像。当志愿者点击每一张图片时,会被问及图中星系是螺旋形还是椭圆形;如果回答是螺旋状,会进一步被询问是否可以辨别星系手臂方向和旋转方向等等。

2007年7月11日,这个名为星系动物园的网站正式推出。创始人一开始并没有对网民接受度抱太大期待,“去英国天文学会忽悠50个人来和我们一起做星系数据分类?”林托特构想着。

让他们没想到的是,网站推出第一天,每小时收到6万份反馈,暴增的工作量甚至融化了电缆,网站因此离线了一段时间。十天后,来自世界各地的用户提交了800万份分类数据,网站建立头一年,就已经有超过15万公众参与,提交分辨结果超过5000万份。

两年后,星系动物园发展成更大的平台“宇宙动物园”(Zooniverse),到2014年,注册用户数已经超过100万,涵盖的科研项目从考古到自然保护。据宇宙动物园的研究员兼网络开发人员罗伯特·辛普森介绍,Zooniverse社区年均贡献超过以往50年的努力,并且已经发表了70多篇科学论文。

在林托特和他的团队开发星系动物园的同时,美国西雅图华盛顿大学的生物化学教授戴维·贝克找到两位计算机科学家赛斯·库珀和阿德里安,试图让网友通过玩游戏的方式帮助生物化学家们解决蛋白质折叠问题。

他们将这款游戏命名为Foldit(直译:折叠它),于2008年5月发布。玩家从部分折叠的蛋白质结构开始,通过点击、拉动、拖拽氨基酸来操纵结构,直到达到最稳定的形状。

最初试玩时,生物化学家们看上去并不兴奋。随后,库珀增加了一个排行榜。通过算法计算,新结构的稳定性越高,得分越高,在排行榜上还能看到其他玩家的分数和排名。

2010年7月、8月,戴维团队先后在《自然》和《科学》杂志上发布了这款游戏的研究成果,作者栏处像开玩笑一样写着“超过57000名玩家”,作者单位写的则是“全世界”(Worldwide)。

网站成立十年间,已经有50多万人尝试过这款游戏,他们中的大多数并没有生物化学背景,但他们正在击败一起玩游戏的专家。2011年,一群玩家解决了困扰生物化学家长达15年之久的难题,他们用不到3周的时间将一种可导致恒河猴艾滋病的蛋白质折叠了出来,这一结构随后通过实验数据得到了证实,并发表在《自然》子刊上。

以游戏的形式完成科研众包的案例屡见不鲜,它打破了专业实验室和普通大众之间的围墙。“这类游戏大部分出现在天文观测、生物医学领域,因为涉及大量声音或数据图像的处理,而人工智能暂时又无法替代人类完成分析工作。” 安徽大学新闻传播学院教师胡昭阳分析说。

“EteRNA”网络游戏平台同Foldit类似,也是计算机与生物化学的集合,美国卡内基梅隆大学的两位教授希望通过玩家的帮助构建RNA(核糖核酸)的多维结构,以加深对它的理解。

首次登录的玩家将获得有关RNA分子结构的基础知识,之后根据指令将RNA分子折叠成特定结构,通过不断调整,让其稳定。与此同时,实验室的工作人员也将测试玩家们创建的分子结构,并将测试结果与新一轮任务发回给玩家。2014年,一篇题为《来自大型开放实验的RNA设计规则》的论文发表在《美国国家科学院院刊》上,署名作者多达3.7万人,其中科研人员仅有10名。

丹麦奥胡斯大学的一个研究小组还设计了一款名为《量子移动》的游戏,试图最终建造一台由300个原子构成的可扩展的量子计算机处理器。

一篇科学论文竟有57000名“作者”

一篇科学论文竟有57000名“作者”

在游戏Foldit中,玩家们操纵过的一个链状蛋白质结构案例:上图为操纵前,下图为操纵后的结果。图/Foldit

嵌入游戏的“公众科学”

与这些专门设计的科研游戏不同,还有一些科研项目与既有的游戏合作,借助其玩家数量的优势,完成数据分析。游戏《星战前夜》(Eve Online)的“探索计划”就是这种组合。

“说实话,探索计划是很抽象、很乏味的东西,对眼神不好的人来说更是痛苦。”资深Eve玩家远夏对《中国新闻周刊》说,Eve在国内不是大众游戏,在Eve玩家中,很多人都没搞懂“探索计划”怎么玩,所以玩的人更是少数中的少数。

《星战前夜》是一款以太空科幻为背景的多人在线游戏,由冰岛CCP游戏公司制作,到现在已经发行近16年。游戏中,玩家驾驶各式自行改造的舰船在7000多个行星系中穿梭,还可以进行各种经济活动,如采矿、制造、贸易、战争。在这款沙盒游戏中,几乎所有内容都是通过玩家互动所创造的,如主权纷争、领袖战争,没有设定剧本,这意味着在这个虚拟世界需要真实的社交。

然而,游戏公司或许还想加入更真实的内容。2016年,CCP游戏公司与瑞典人类蛋白质图谱计划、冰岛雷克雅未克大学等机构合作,引入公众科学项目“探索计划”。第一期项目中,共有超过30万名玩家分析了超过3300万个细胞图谱样本,研究结果已经上传到公开的“人类蛋白图谱数据库”中,并正式发表在《自然·生物技术》上。

时隔一年,CCP又开启了第二期探索计划,与雷克雅未克大学等合作,让玩家帮助分析数据,从而搜索到太阳系外行星,即太阳系以外围绕着一颗或多颗恒星运转的行星。1990年代人类才首次确认系外行星的存在,而自2002年起每年都有超过20个新发现的系外行星。这次玩家要分析的数据来自法国国家太空研究院和欧洲空间局发射的CoRoT卫星。

复杂的数据和分析过程是如何简化为普通人就能学习和操作的游戏的呢?

目前探测系外行星方法众多,而CoRot卫星采用的就是“凌日法”,基本原理是观察恒星亮度在有行星横穿或路经其表面时发生的细微变化,优势是可以从光变曲线测定行星的大小。可以类比为月食过程,地球即观测者,太阳是被观测的恒星,当月球从地、日之间穿过时,会影响地球观测到的太阳的亮度变化。

不过,现实中恒星的光度曲线变化并不只受到行星的干扰。恒星本身的光度也不是恒定的,会出现周期性变化,同时,也无法避免卫星观测、采集数据时出现误差。因此,行星出现时光度下降的波段会隐藏在诸多“陷阱”中,需要玩家了解基本常识并多加训练后,才能辨别真伪,这些都出现在“探索计划”的教程中。

正式开始前,玩家还需先通过一些简单的测验,即分辨有行星凌日的光变曲线,或没有这一过程的曲线,如果是前者,则需找出行星出现光度曲线下凹的波段。通过后才会接到真正的CoRot望远镜收集到的数据。

即便可以事先教学,但如何避免玩家提交的错误答案呢?

“这是技术问题,并不复杂。”贝叶斯数据技术有限公司创始人邓熙浩对《中国新闻周刊》说,他们设计的游戏《灯塔计划》试图让玩家在不断升级的过程中了解人类发现脉冲星这段科学史,其中也会引入和主线故事相关的内嵌科研小游戏,数据来自印度天文台,玩家通过游戏帮助寻找脉冲星。这款游戏规避错误数据的方法是,将同一数据转发给多位玩家独立完成,以此多重验证分析结果的准确性。

既然入门困难、玩时间长了又觉得单调乏味,科研游戏又如何吸引玩家呢?远夏认为,“探索计划”并不是用来延长玩家玩游戏的时间的,这个项目就是利用大量玩家的劳动力,缩短科研周期,“我玩这个游戏,就是为了奖励,除了经验值,奖品是通常情况下在游戏中买不到的非常昂贵的装备,比如极品舰船。”远夏说。

“科研项目是宣传亮点,真正将玩家留下的是《灯塔计划》的游戏故事主线。”邓熙浩坦言,2018年10月,《灯塔计划》通过《环球科学》和中科院物理所的科普平台发出邀请,开始公测,目前1000多名玩家的日活在10%以上,已经分析几十万条数据,“比Foldit的效率高多了。”邓熙浩说。

为了及时收到反馈,邓熙浩还成立了一个玩家群,据他介绍,玩家主要是15~30岁的一二线城市高学历人群,其中男性占7成左右。

瑞典哥德堡大学哲学、语言学和科学理论系高级讲师克里斯托·弗库伦伯格2016年11月在《公共科学图书馆》杂志刊文称,公众科学的概念是由科学研究行业内外许多参与者共同提出的,多与大型数据集相关,在科学界之外动员人群以协助观察的方式参与其中。也有说法称,公众科学是科学民主化的一种方式,可以影响环境和健康领域的政治决策。

相比之下,这类科研游戏在中国还没被提到“公众科学”的层面,更多是在“科研众包”或“功能游戏”领域被讨论。胡昭阳说,“这类游戏实际上就将科研中大量人力分析工作众包出去,即分派给游戏玩家。”

另一方面,“功能游戏”的概念也在近几年被提出。2018年9月,中国科协主办的一场会议论坛上,腾讯研究院高级研究员刘琼介绍了一类“以解决现实社会和行业问题为主要目的”的游戏,这类游戏被称为“功能游戏”,在国外也叫“严肃游戏”,科学普及是其最基础的功能,此外还有教育、培训等功能。

邓熙浩说,“科学应该有更现实、更多样的发展。”在他看来,科学应该是一个可以产生社会价值的行业,除了科普文章和科学探险节目外,还应该有更多样的发展方式。“科学是可以给人带来快乐体验的行业,而能给人带来快乐的产业都是无法预测的,就像电影不拍出来永远不知道票房会有多少,科学的市场有多大,同样无法预估。”