人工智能软件表现抢眼,几乎准确预测了奥密克戎病毒的复杂结构

破译复杂氨基酸序列的新算法提供了人们对冠状病毒变异株的早期认识。它们可能为未来的药物开发指明道路。

1126日,世界卫生组织将在南非激增的冠状病毒株命名为“高关注变异株”,并将其命名为奥密克戎。第二天,不列颠哥伦比亚大学的一位教授下载了网上发布的基因组序列,并安排将奥密克戎基因样本运送到他的实验室。

该大学使用电子显微镜来揭示奥密克戎蛋白质的三维结构,以更好地了解它们的工作机制。这种方法绘制出了某些早期菌株的刺突蛋白,它可以让冠状病毒与人体细胞结合并进入人体细胞。对奥密克戎的刺突蛋白进行描述迫在眉睫,因为其基因组的变异可能会解释该变体为什么会快速传播。尽管情况很紧急,但他们必须要有耐心,在样品送达之前,他们无法将奥密克戎蛋白质置于显微镜下。

在大陆的另一端,北卡罗来纳大学夏洛特分校的计算基因组学研究员Colby Ford也一直在思考奥密克戎的刺突蛋白。亲朋好友们一直在问他一个同样困扰着许多专家的问题:现有的疫苗对奥密克戎有用吗?这些疫苗让身体可以对早期毒株的刺突蛋白做出反应。Ford没有订购实验室用品,而是尝试了最近发明的快捷方法。就在世卫组织为奥密克戎命名的同一天,他使用免费的人工智能软件,尝试根据奥密克戎基因组中编码的氨基酸序列来预测其结构。

大约一个小时后,Ford得到了他的第一个结果,并迅速发布到了网上。12月初,他和两名同事发布了一篇更完整的论文,现在已获许正式发表,其中预测了对抗先前菌株的一些抗体对奥密克戎的效力将会降低。

Subramaniam的实验室很快就收到了奥密克戎基因样本,并于1221日公布了该结构的显微镜观察结果以及对真实抗体的测试结果。在Ford预测的两种结构中,有一种被证明是相当正确的:他的计算结果显示,奥密克戎中心原子的位置与之前的病毒相差约半埃,大致相当于氢原子的半径。Ford说:“这些工具可以让你快速做出有依据的猜测,这对于新冠病毒的研究很重要。随着任何新病毒的出现,其他人也能借鉴我的方法。”

预测结果的发布早于奥密克戎刺突蛋白的实验结果,这反映了AI给分子生物学带来的巨大变化。由于Alphabet英国AI实验室(DeepMind)和华盛顿大学的竞争团队的努力,首个能够准确预测蛋白质结构的软件在奥密克戎出现前几个月开始被广泛使用。

Ford使用了这两个公司的软件包,但由于两者都不是专用于预测像奥密克戎这样的突变导致的微小变化的,也没经过相关验证,所以他的结果更具启示性而不是确定性的。一些研究人员对他的研究结果持怀疑态度。不过事实是,他可以很方便地用功能强大的蛋白质预测AI进行实验,这说明最近的技术突破已经改变了生物学家的工作和思考方式。

Subramaniam说,在他进行实验期间,收到了四五封电子邮件,其中包含了其他人预测的奥密克戎刺突结构。Subramaniam说,好多人这样做只是为了好玩。直接测量蛋白质结构仍将是最终的衡量标准,但他预计AI预测将逐渐成为研究的核心,包括对未来疾病暴发的研究。他认为这将是颠覆性的。

因为蛋白质的形状决定了它的行为方式,所以了解它的结构可以促进各种生物学研究,包括进化研究和疾病研究等等。在药物研究中,弄清楚蛋白质结构有助于揭示新疗法的潜在靶点。

然而,确定蛋白质的结构非常困难。它们是由生物体基因组中编码的指令组装而成的复杂分子,用作酶、抗体以及构成其他生命体的主要成分。蛋白质由一连串称为氨基酸的分子组成,可以折叠成各种不同的复杂形状,具有不同的表现方式。

破译蛋白质的结构通常需要艰苦的实验室工作。大约20万个已知结构中的大多数都是通过复杂的过程绘制出来的,在这个过程中,蛋白质会形成晶体并受到x射线轰击。Subramaniam使用的电子显微镜等新技术可以加快绘制速度,但这一过程仍然充满艰辛。

2020年末,经过几十年的缓慢发展,计算机终于能够通过氨基酸序列来预测蛋白质结构了,这一长久的希望突然变成了现实。DeepMind开发的AlphaFold软件在一场蛋白质预测竞赛中经证明具有极高的准确性,该挑战赛的联合创始人、马里兰大学教授John Moult随即宣布该问题已被攻克。Moult说:“我个人对这个问题研究了很长时间,DeepMind的成就是‘一个非常特殊的时刻’。”

这一时刻也让一些科学家感到沮丧,原因是DeepMind没有立即公布AlphaFold工作原理的细节。去年,华盛顿大学蛋白质结构预测实验室的David Baker在接受《连线》杂志采访时表示:“现在的情况很奇怪,你所在的领域已经取得了重大进展,但你却不能在工作中利用这一进展。”他的研究团队使用DeepMind提供的线索来指导开源软件RoseTTAFold的设计,该软件于今年6月发布,与AlphaFold类似,但功能不如它强大。这两个软件都基于机器学习算法,通过包含10万多个已知结构的数据集进行了训练,以准确预测蛋白质结构。7月,DeepMind公开了相关研究工作的细节,并发布了AlphaFold供任何人使用。突然间,世界上有了两种预测蛋白质结构的方法。

Baker实验室的博士后研究员Minkyung Baek领导了RoseTTAFold的研究工作。她说,她对蛋白质结构预测如此迅速地成为生物学研究的标准感到惊讶。谷歌学术搜索的结果显示,华盛顿大学和DeepMind关于其软件的论文自发表以来,在短时间内共被1,200多篇学术文章引用。

虽然还没有证据表明此类预测对新冠肺炎的研究至关重要,但她认为,它们对于应对未来的疾病将变得越来越重要。消灭疫情的办法不会完全从算法中产生,但预测的结构可以帮助科学家制定策略。Baek说:“预测的结构可以帮助你把实验工作投入到最重要的问题上。”她正尝试让RoseTTAFold准确地预测抗体和入侵蛋白质结合在一起后的结构,这将提高该软件对传染病项目的作用。

尽管蛋白质预测器的表现令人印象深刻,但它们并不能揭示分子的所有工作机制。它们会为蛋白质呈现单一的静态结构,而不会捕捉蛋白质与其他分子进行相互作用时发生的弯曲和摆动。这些算法是基于包含已知结构的数据库训练的,这些结构更能反映那些最容易通过实验绘制的结构,而不代表自然界的全部多样性。哥本哈根大学的Kresten Lindorff-Larsen教授预测,这些算法将被更频繁地使用,也会很有用,但他说:“当这些方法失败时,我们整个领域也需要更好地进行学习。”

除了刺突蛋白结构外,Subramaniam的奥密克戎论文还包括了AI尚未得出的结果——一种刺突蛋白与它所针对的人类蛋白质结合的组合结构。研究结果表明,该变异株的结构变化使其能够更牢固地与宿主细胞结合,同时也不易受到来自先前菌株的抗体的攻击,这一组合似乎可以解释为什么奥密克戎可以在接种程度较高的群体中大量传播。

Subramaniam说:“最好的方法永远是直接测量。如果你正在开发一个数十亿美元的药物项目,人们想知道真正的药物是什么。”同时,他也表示自己的实验工作现在经常受到AI预测的启发。Subramaniam说:“这改变了我们的思维方式。”

稿件来源:https://www.wired.com/story/ai-software-nearly-predicted-omicrons-tricky-structure/

猜你喜欢

转载自blog.csdn.net/m0_65135736/article/details/122611095