AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

  • 新闻

今天,DeepMind欧洲生物信息研究所(EMBL-EBI)合作发布了AlphaFold DB;利用 AlphaFold 确定了覆盖几乎整个人类蛋白质组(98.5% 的所有人类蛋白)的蛋白质的结构。

DeepMind 创始人兼首席执行官 Demis Hassabis 博士说:「我们使用 AlphaFold 生成了人类蛋白质组最完整、最准确的图片。我们相信这是迄今为止人工智能对推进科学知识所做的最重要贡献,也是人工智能可以为社会带来的各种好处的一个很好的例证 。」

这项最新的研究成果于 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」为题发表在杂志《Nature》上。

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

研究发现 AlphaFold 能对人类蛋白质组 58% 的氨基酸的结构位置给出可信预测。其中,对 35.7% 的结构位置的预测达到了很高的置信度,是实验方法覆盖的结构数量的两倍。在蛋白水平上,AlphaFold 对 43.8% 的蛋白的至少四分之三的氨基酸序列给出了可信预测。预测信息将通过 EMBL-EBI 托管的公用数据库免费向公众开放。

清华大学生命科学学院的龚海鹏副教授告诉机器之心——ScienceAI,「这项工作影响非常深远,将在很大程度上改变相关领域的科研模式」,而且从事蛋白质功能和机理研究、分子动力学模拟和基于结构的药物开发、蛋白质结构解析的研究者都能从中受益。

龚海鹏副教授表示,对于计算化学领域和生物信息学领域的研究者,给出了很好的蛋白质初始结构信息,可以基于此进行分子动力学模拟以及计算机辅助药物设计等工作。研究蛋白质功能和机理的学者,也可以根据预测的结构解释实验中氨基酸残基突变对蛋白质功能的影响,有助于更深入和更准确地理解蛋白质的工作机理。目前结构解析团队用冷冻电镜法较容易建立低分辨率的电子密度图,用X射线晶体衍射法常常缺乏相位信息,这些缺陷都影响结构的解析;而该研究结果的开源,使得大部分实验室可以根据精度较低的实验数据建立较为合理的结构模型。

不过,芝加哥丰田计算技术研究所的许锦波教授指出:AlphaFold 预测人类蛋白的覆盖率很高,达到了 98.5%,但在某些生物制药或疾病治疗领域,对蛋白质氨基酸结构精度需要达到原子级别,从这个角度看,AlphaFold 还有一定的提升空间。」

另一些研究人员也同意许教授的看法。自然资源部第三海洋研究所一名研究蛋白互作的研究人员表示,AlphaFold 是对实验结构生物学的一种补充技术,它可以加速现有的生物结构实验研究,节约数月的时间,但「预测毕竟是预测,还是需要实验证实」。

参与这项工作的 DeepMind 研究人员表示,「像AlphaFold 这样擅长理解蛋白质结构任务的网络架构的发展令人乐观,我们可以在相关问题上(预测复合物的结构、结合非蛋白质成分等)取得进展……大规模的准确结构预测将成为一种重要工具,让我们能从结构的角度解答新的科学问题,而 AlphaFold 的预测结果将帮助进一步阐明蛋白质的作用。」

机器学习加速蛋白质结构预测

解析蛋白质的结构可以为理解生物学过程提供重要信息,并有望指导药物研发。考虑到理解人类蛋白质组对健康和医药的重要性,研究人员付出了大量努力来确定这些蛋白质结构。虽然开展了数十年的研究攻关,但只有 35% 的人类蛋白质映射到蛋白质数据库(PDB)条目。利用实验方法解析结构需要跨越诸多十分耗时的障碍,因此,扩大蛋白质组覆盖面仍是一项艰巨挑战。

蛋白质结构预测通过快速、大规模地提供可操作的结构假设,有助于缩小这一差距。近年来,基于机器学习方法的出现,让蛋白质结构预测取得了实质性进展。

2020年12月,DeepMind 团队开发的 AlphaFold2 在国际蛋白质结构预测竞赛 CASP14 击败一众选手,实现了前所未有的结构预测精度,这破解了出现50年之久的蛋白质分子折叠问题,被称作结构生物学「革命性」的突破、蛋白质研究领域的里程碑。

上周,备受瞩目的 AlphaFold2 开源,它预测的蛋白质结构能达到原子水平的准确度。鉴于此,DeepMindAlphaFold 应用于人类蛋白质组结构预测。

AlphaFold方法

AlphaFold 网络由两个主要阶段组成。第1阶段,以氨基酸序列和多序列对齐(MSA)作为输入。它的目标是学习一个丰富的「成对表示」。这种表示可提供「哪些残基对在 3D 空间中接近」的信息。第2阶段,使用第一阶段的表示法直接产生原子坐标;将每个残基作为一个单独的物体,预测放置每个残基所需的旋转和平移;最终组装成一个完整的结构链。这里可以生成一个基于网络中间层表示的三维结构。

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

CASP14的预测结构在网络的连续层上的目标T1044、T1024和T1064

准确性和置信度

在 CASP14 实验中,对 AlphaFold 进行了严格的评估。实验中,参与者对已经解决但尚未公开的蛋白质结构进行盲测。AlphaFold 在大多数情况下都取得了较高的精度,实验结构平均 95% 的 RMSD-Cα 小于1Å。在新发布的论文中,DeepMind在更大的 PDB 条目上进一步评估了这个模型。结果表明,AlphaFold 在大蛋白上具有强大性能和良好的侧链精度,其中主链预测性能很好。

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

在CASP14中AlphaFold相对于其他方法的精度

结构预测实用性的一个重要因素是相关置信度的质量。为了解决「模型能否确定其预测中可能可靠的部分」的问题,研究人员在 AlphaFold 网络的基础上开发了两个信任度量。

第一个度量是 pLDDT(预测的 lDDT-Cα),它是在 0 -100范围内对局部置信度的每个残基的度量。pLDDT可以沿着一条链显著变化,使得模型能够表达结构域的高置信度,但是在结构域之间的连接子(linker)上具有低置信度。研究人员提出了一些证据,证明低 pLDDT 的区域可能是孤立的非结构。pLDDT

第二个度量是 PAE(预测对齐误差),当预测和真实结构在残基y上对齐时,它报告AlphaFold在残基x处的预期位置误差。这对于评估对全局特征(尤其是域包装)的信心很有用。对于来自两个不同结构域的残基x和y,在(x,y)处始终较低的PAE表明α折叠对相对结构域位置更可信;在(x,y)处始终较高的PAE表明不应解释域的相对位置。用于生成PAE的一般方法,同样适用于预测各种基于叠加的度量,包括 TM-score 和 GDT。

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

两种示例蛋白(P54725、Q5VSL9)的每残基置信度(pLDDT)和预测对准误差(PAE)

蛋白质组规模和 AlphaFold DB

AlphaFold 可快速预测的特性,允许该方法应用于整个蛋白质组规模。研究人员使用 AlphaFold 对人类蛋白质组进行预测。在这之前,AlphaFold 已经对许多模式生物、病原体以及经济上重要的物种的参考蛋白质组进行了预测。观察物种之间pLDDT 分布的差异,AlphaFold 的预测对细菌和古细菌的置信度普遍较高,对真核生物的置信度较低;研究人员猜测可能与这些蛋白质组中疾病的流行有关。

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

14 个物种的每个残留置信度分布;从左到右:细菌/古细菌、动物和原生生物

AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

AlphaFold DB 对自各种生物体的预测示例

论文一作 Kathryn Tunyasuvunakool 表示:「我们对计算生物学的未来感到兴奋。最终,我们希望 AlphaFold 将成为一个照亮蛋白质空间的有用工具,我们期待看到它在未来几个月和几年的应用。」

论文链接:https://www.nature.com/articles/s41586-021-03828-1

近期机器之心知识站将举行在线直播论坛,邀请领域专家就基于机器学习的蛋白质结构预测开展讨论。详情请关注后续报道,或添加机器之心小助手,注明「蛋白质」入群。

理论人类蛋白结构NatureAlphaFold

原文地址:点击此处查看原文

钧天 | 真实新闻时事动态:AlphaFold 再登 Nature!预测确定98.5%所有人类蛋白结构

时事大家谈: 民族主义“习”卷中国,毒药还是仙草?