这个困扰了科学家70年的难题,现在被AI解决了

  • 新闻

这个困扰了科学家70年的难题,现在被AI解决了

图片来源:DeepMind 官网

从首个蛋白的一级结构被公布,到如今 DeepMind 打造的 AlphaFold
系统开始破解人类蛋白组几乎所有蛋白的空间结构,已经过去了超过 70 年的时间。AI
在结构生物学领域取得的重大突破,不仅提升了我们对蛋白质的理解,还将改变我们对几乎所有生理过程和人类疾病的认识。

 

去年年末,人工智能研究实验室 DeepMind 的 AlphaFold
在国际蛋白质结构预测竞赛(CASP)上一骑绝尘,首次将蛋白三维结构预测的分数提升至 90 分。不到 8 个月后,DeepMind
又为生物学界带来了两个重磅消息。7 月 15 日,他们在《自然》杂志上发布了关于 AlphaFold
算法的新论文,实现了原子层面上的蛋白质结构精确预测。仅仅一周之后,他们又和欧洲生物信息学研究所(EMBL-EBI)合作发表了一篇《自然》论文。这次,他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。

氨基酸,蛋白质

从人类首次解析出构成蛋白质的氨基酸序列,到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果,科学家已努力了超过 70
年。1949 年,英国生物化学家弗雷德里克 · 桑格(Frederick
Sanger)通过水解胰岛素,首次确定了组成牛胰岛素的氨基酸序列,这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构,如果我们只按照这个序列合成胰岛素,得到的产物不会有活性。氨基酸序列需要通过数步折叠过程,形成复杂的
3 级结构后,才能成为具有功能的蛋白质。

1965
年,中国科学家首次解析出胰岛素的精确结构,人工合成出了具有活性的胰岛素。在人类的蛋白组中,胰岛素是一种结构简单的小型蛋白质,它含有两条肽链,有
51 个氨基酸。对人类等真核生物来说,一个蛋白质中平均含有 400
多个氨基酸残基,其中绝大部分蛋白质的空间结构远比胰岛素复杂。

人类基因组草图公布后,科学界对蛋白质的研究进入了快车道。经过数十年的努力,研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质,再加上冷冻电子显微镜的应用,至今已经解析出了超过
5 万个人源蛋白质的三维结构。无疑,我们获得蛋白三维结构的速度正在不断变快。

不过,实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐,且稍有不慎就无法获得较好的蛋白质空间结构,因此仍有大量人源蛋白质结构有待破解。与此同时,一些科学家开始尝试另一种工具——借助人工智能(AI)技术来预测蛋白的空间结构。

1994 年,计算生物学家约翰 · 莫尔特(John Moult)等人创立了 CASP 比赛,让 AI
加入到蛋白质三维结构的研究中。不过在此之后的 20 多年中,各个 AI 实验室在这项比赛中的始终缺乏实质性突破。直到 DeepMind
的加入,彻底改变了这一局面。

2020 年,DeepMind 开发的一款蛋白质三维结构预测算法 “AlphaFold” 一举夺得了当年 CASP
比赛的最高分(GDT 分数为 90 分),比第二名的分数高出了 15%。GDT
分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距,分数越高,预测越准。当时 AlphaFold
就像是一枚投在生物学界的炸弹,当时《自然》《科学》等相继发文,强调了这是人工智能的一次重大胜利。

从实验解析到 AI 预测

细胞中,蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是,一些氨基酸序列通过一系列变化,形成了一个具有三维结构和活性的蛋白质。在蛋白质中,具有相同特性的氨基酸通过特殊的共价键(例如二硫键)聚集到一起,形成一些特定的螺旋结构,比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。

但是,依靠这些理论还远远不足以准确预测蛋白质的三维结构,这也是很多参与 CASP 比赛的算法分数不高的原因。在今年 7 月 15
日一项公布于《自然》的论文中,DeepMind 的研究团队详细介绍了 AlphaFold
成功的原因。这一算法采取了多序列比对和一种新型的神经网络架构,将重点放在一些关键的氨基酸上。此外,这一算法还纳入了结构模块(Structure
Module),用于评估预测的蛋白质结构的每个氨基酸残基与其真实位点的差异。DeepMind 的研究团队还强调,AlphaFold
是首个在不知道相似蛋白的结构时,也可以在原子层面上精确预测蛋白质结构的算法。

昨日,在发表于《自然》期刊的一项研究中,他们和 EMBL-EBI 合作利用 AlphaFold
做出了一项更有突破性和实用性的研究——直接对人类蛋白组中 98.5%
的蛋白质完整三维的结构进行了预测
。根据他们的估计,虽然蛋白质资料库(PDB)中公布的人源蛋白质三维结构占到了目前人类蛋白组的
35%,但是很多蛋白质的空间结构并不完整。实际上,完整的三维蛋白质结构只占 17%。

类似于 CASP 比赛中的 GDT 分数,研究人员也为 AlphaFold
设置了一个可以评估预测可信度的数值——pLDDT(每个残基位点的可信度测评,per-residue
confidence metric)。当 pLDDT 值大于 90,表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度;当
pLDDT 值大于 70,表明预测结果是基本准确的。

在对人体蛋白质组三维结构的预测中,AlphaFold 精确预测了 35.7%
的氨基酸残基的位点,基本准确地预测了 58.0%
的氨基酸的位点。
在蛋白质水平上,这一算法也能较为准确地预测人类蛋白组中 43.8% 的蛋白质至少 3/4
序列的空间结构。在 1290 个没有没有参考结构的蛋白质中,AlphaFold 能较为准确预测每个蛋白中近 200
个氨基酸残基的空间结构(pLDDT≥70)。

这个困扰了科学家70年的难题,现在被AI解决了

一种由 WFS1 基因编码的蛋白,突变会导致 WFS 综合征。(图片来源于论文)

在这次实验中,AlphaFold
准确预测出由于许多和药物靶点相关的酶和膜蛋白的三维结构。由于膜蛋白的结构复杂,一直以来,通过实验方法来解析这类蛋白的结构都极具挑战性。除此之外,AlphaFold
还能较为准确地预测出此前没有接受过训练或不熟悉的蛋白质的三维结构。

除了人源的蛋白质,他们还利用 AlphaFold 对其他 20
种模式生物(包括小鼠、玉米和疟原虫)蛋白组中的蛋白进行了预测。根据《自然》官网的消息,这些预测的蛋白质三维结构数据已通过
EMBL-EBI 托管的公用数据库免费向公众开放,目前有近 36.5
万个蛋白质结构已在该数据库中发布
,而到今年年底,这一数值有望增长到 1.3 亿。DeepMind 和
EMBL-EBI
的研究人员强调,目前这部分工作还只是一个开始。他们想要进一步验证这些预测的结果,更重要的是,将它们应用到迄今为止不可能实现的实验中。

这个困扰了科学家70年的难题,现在被AI解决了

蛋白 Q8I3H7 的空间结构,可以保护疟原虫免受人体免疫系统的攻击。(图片来源:AlphaFold Protein
Structure Database)

重大意义

近 70 年来,解析蛋白质的空间结构一直是一项极具科学意义的难题。如果基因组是一个 ” 指令官 “,那么蛋白质就是基因功能的 ”
执行者
“,可以说蛋白质几乎参与人体内所有的生理过程和疾病过程。如果我们能掌握蛋白质的精确结构,就像解析了一把精密的锁的内部结构。对于人类来说,也更容易开发出一把甚至多把能打开这些
” 锁 ” 的钥匙,而这将会改变我们在分子水平上对自身的认知,治疗现今绝大多数的人类疾病。

DeepMind 联合创始人兼首席执行官杰米斯 · 哈萨比斯(Demis
Hassabis)认为,这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外,对于一些 AlphaFold
无法准确预测的蛋白结构,一些科学家也发表了自己的见解。一部分人认为,在人类等真核生物中,相当一部分蛋白质区域本身就是无序的,这或许是为了与其他的蛋白分子相互作用,也可能还有一些我们还不知道的作用。

值得一提的是,在《自然》于上周发表 AlphaFold 论文的次日,《科学》杂志也公布了另一项蛋白质预测算法——
RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开发。它采用和 AlphaFold2
不同的深度学习算法,但具有 AlphaFold2 可媲美的超高准确率,而且速度更快、对计算机处理能力的需求也较少,能在短短的 10
分钟内计算出一个蛋白的结构。目前,研究人员正在用这一算法研究一些和人类健康直接相关的蛋白质的结构。

这两项算法的出现无疑标志着在结构生物学领域,AI 的时代已经到来。

钧天 | 真实新闻时事动态:这个困扰了科学家70年的难题,现在被AI解决了

郑州地铁9名遇难者身份公布 亲属讲述失联前最后一刻

洪水不断涌入地铁站,一场悲剧在郑州地铁 5 号线上发生了。 今年27岁的张挽月,在郑州市一家药店工作。她的姑姑说,侄女结婚才两三年,孩子才2岁。她和丈夫上班地点离得不远,7月20日下午,两人一起下班搭乘地铁5号线准备回家。 那时的地铁站外暴雨如注,洪水开始倒灌…