AI凭啥又得化学奖?凭半小时干完几年的活
今年的诺贝尔化学奖颁给了两组研究者,他们制造的分析工具极大地提升了蛋白质研究的效率,为生物科学研究和应用带来了不可估量的巨大影响。
2024年诺贝尔化学奖的主题是蛋白质。化学奖得主大卫·贝克构建出全新的蛋白质,成功完成了几乎不可能的壮举。戴密斯·哈萨比斯与约翰·朱默帕开发了一种人工智能模型,解决了一个 50 年前的问题:预测蛋白质的复杂结构。
AlphaFold:
又快又准的蛋白质结构预测
蛋白质的功能是由分子的三维空间结构决定的,因此,想要真正地理解蛋白质如何发挥作用,科学家们就必须准确地掌握蛋白质的空间结构。
蛋白质通常由20种氨基酸组成,但它们可以组合成无数种方式。氨基酸链会扭曲和折叠成一个独特的(有时是独一无二的)三维结构,正是这种结构赋予了蛋白质功能。
了解组成蛋白质的氨基酸序列是容易的,但确定它具体的空间结构却相当困难。在过去,确定蛋白质结构依赖X射线衍射、冷冻电镜等实验方法。这些方法相当耗时:在晶体时代,弄清一个晶体结构往往就会消耗一个博士生的整个求学生涯。虽然也有早期的分析软件可用,但它们往往不够准确,参考价值有限。
而AlphaFold的过人之处就在于它不仅非常快,而且相当准确,因此大大提高了蛋白质研究的效率。
蛋白质结构预测的里程碑式事件是在2020年的CASP14上,AlphaFold2预测蛋白质的分辨率达到了近原子级别。更重要的是,这些结构在细节上是“对”的——也就是说,在药物筛选等研究场合,AI的预测结果变得很有用。
在速度上,AlphaFold2也远远甩开了实验手段:消耗一个博士生几个月甚至几年的时间才能得到的结构,一张GPU花半个小时就可以得到一个近似的,这在之前是无法想象的。正是依靠这样的效率,AlphaFold在很短的时间内就预测了六七亿个蛋白质结构。
从2018年的1代到2024年的3代,AlphaFold经历了巨大的升级改进。从采用经典卷积神经网络架构的初始模型,到引入能力更强的Transformer架构、预测准确率史无前例的2代模型,再到能够预测“几乎所有分子类型”的蛋白质复合物结构的3代模型,能力不断飞跃。
戴密斯·哈萨比斯与约翰·朱默帕使用他们AI模型AlphaFold2.计算了所有人类蛋白质的结构,并预测了目前已知的地球生物共2亿种蛋白质的结构。Google DeepMind公开了AlphaFold2 的代码,到2024年10月,190个国家的200多万人使用了 AlphaFold2.图片中为AlphaFold2帮助研究人员的例子。
大约半个世纪以前,有位名叫克里斯蒂安·安芬森的科学家,他在研究RNA酶的时候发现:对一些蛋白质来说,只要环境不变,它的天然结构便只由氨基酸序列决定。换句话说,给定一个氨基酸序列,理论上就可以预测出蛋白质的三维结构。
后来的几十年间,科学家们在预测蛋白结构的路上艰难地前行,希望有朝一日能把“理论上”这几个字去掉。
而现在,Alphafold的出现已经让这个梦想基本成真。
Rosetta:制造全新的蛋白质
与两位人工智能研究者分享诺奖的是生物化学家大卫·贝克(David Baker),他的研究成果是利用计算机软件从头开始设计全新的蛋白质。
这正是蛋白质结构预测的反向操作:这一次,人们输入的是蛋白质空间结构的“设计图纸”,计算机会根据图纸反推出对应的氨基酸序列。只要按照这个氨基酸序列进行合成,就可以得到人们想要的、具有特定功能的新蛋白质。
在过去,科学家没有办法完全凭空设计一种新蛋白质,他们只能依靠自然界已经存在的蛋白质,然后对它们的结构加以改造。就像是通过改装鸟来设计飞机一样,这种改造的方法有很大的局限性而且效率低下。
而贝克和他开发的蛋白质分析软件Rosetta彻底改变了这种局面,让从头开始轻松设计蛋白质变成可能。2003年时,他首次利用软件成功创造出了一个与天然蛋白质截然不同的新蛋白质:Top7.
大卫·贝克首次创造出了与已知的所有蛋白质完全不同的蛋白质Top7.过去,从事蛋白质设计的研究人员只能模仿现有结构来创造新蛋白质,但Top7的独特结构在自然界中并不存在。此外,它含有93个氨基酸,比以前使用“从头设计”生产的任何蛋白质都要大。
在此之后,Rosetta软件不断升级,如今它也与人工智能模型结合了起来。
这些研究如何影响我们?
分析蛋白质结构和设计全新的蛋白质在很多领域都有着重要的应用价值,从这些研究工具中产生的新成果可能也会改变我们的生活。
比如说,这些分析软件在医药领域就有很多应用。很多药物的作用靶点都是人体内的蛋白质,分析了这些蛋白质的空间结构,就可以高效地筛选能与它结合的分子,进而从中找出具有潜力的新药。而了解了空间结构特征,也可以设计出相应的新型蛋白质,让它们成为新的药物、疫苗或是载体。
贝克实验室使用计算机软件Rosetta创造了许多蛋白质,图片展示了其中几个例子。大卫·贝克公开了Rosetta的代码,所有研究者都可以使用该软件,寻找新的应用领域。
除此之外,也可以把新蛋白质开发成工业催化剂、新型传感器或是新材料,让它们在不同领域发挥作用。
有了本届诺奖得主贡献的研究工具,这些研发工作都可以以前所未有的速度进行。